中信证券：OpenAI推出GPT新模型端到端加速边缘侧落地|端到端_新浪财经

中信证券发布研究报告称，OpenAI于北京时间2024年5月14日推出了其最新旗舰AI模型GPT-4o,在保持与GPT-4同等智能水平的基础上，实现了文本、图像和语音处理的全面提升，尤其是引入了业界领先的实时语音功能，同时OpenAI宣布将免费开放GPT-4o给所有用户，plus用户仅会优先体验部分功能以及享受每天更高的使用限额。GPT-4o作为一个原生多模态端到端模型，所有输入输出均由同一神经网络处理，同时整体API价格相比于前代也下降了50%，这为将大型语言模型部署到边缘设备提供了可行的技术路径。

该行认为GPT-4o的推出预示着交互方式的变革，实时语音输入与反馈将极大提升用户交互体验。该行看好GPT-4o代表的多模态交互革命，建议重点关注未来1年内可能落地的端侧AI的相关机会，并持续关注应用在教育、音视频社交媒体等领域的相关落地情况。

中信证券主要观点如下：

事件背景：

北京时间5月14日，OpenAI宣布推出其最新旗舰AI模型GPT-4o，该模型预计将在未来几周逐步融入OpenAI的全线产品。据OpenAI首席技术官穆里·穆拉蒂介绍，GPT-4o在保持与GPT-4同等智能水平的同时，在文本与图像处理上实现了显著提升，并新引入了实时语音功能。测试数据表明，GPT-4o已超越谷歌Gemini等竞争对手，成为市场上领先的多模态模型。虽然GPT-4o将向ChatGPT的免费用户提供，但使用上会存在一定限制。Plus用户将享受比免费用户多5倍的消息限制，而Team和Enterprise用户则享有更高限制。

模型概况：基础性能全方位提升，语音TTS成为最大亮点。

OpenAI研究员William Fedus在发布会中透露，GPT-4o即是此前在大模型竞技场进行A/B测试的模型之一，其elo分数较4月9日的GPT-4 turbo版本提升了4.8%，在语音生成与转换方面表现尤为出色。GPT-4o对音频输入的响应时间缩短至232毫秒，平均为320毫秒，接近人类的反应速度。该模型能够识别并响应用户的语调和语速，并在多人对话中准确区分不同发言人的语气风格及情感。在英文文本和代码处理上，GPT-4o与GPT-4 Turbo表现相当，但在非英语文本处理上取得了明显进步。此外，GPT-4o运行效率更高，使用成本较之前API降低了50%，在视觉和音频理解方面展现了更优越的性能。

端到端原生多模态：跨文本、视觉和音频端到端训练的模型，所有输入和输出由同一个神经网络处理。

GPT-4o是一个原生多模态融合模型，通过端到端训练，能够处理文本、音频和图像的任意组合输入，并生成相应的多模态输出。在语音翻译任务中，GPT-4o的表现超过了OpenAI的专业语音模型Whisper-V3以及谷歌和Meta的语音模型。对比此前ChatGPT处理语音信息的流程：首先将通过一个模型将语音转为文本，然后由GPT-4处理并生成文本，最后再由另一个模型将文本生成为语音，GPT-4o是一个完全重新训练的端到端模型，所有输入输出均由同一神经网络处理，模型可能使用了一种基于神经网络的流式编码技术，传输运动变化的Token。如果这个可能性成立，OpenAI后续可以在边缘设备上部署一个小型神经网络，并通过评定内容长短来为边缘端分配算力，这为后续可能的边缘端部署提供了切实可行技术手段。

交互革命：交互方式改变为端侧部署提供新的想象空间。

GPT-4o的更新预示着语言模型交互方式的变革，实时语音输入与反馈将极大提升用户交互体验。此前大模型的端侧部署有两个较大的问题：1）端侧交互模式受限，大多数端侧用户并不能接受一个需要打字输入的交互模式，而三段式的语音大模型延迟较高。2）端侧成本较高，在成本上无法支持频繁的端侧调用。而与以往的语音模型相比，GPT-4o真正解决了实时语音延迟问题，使得高性能大语言模型的端侧部署成为可能。同时在成本方面，GPT-4o也继续优化API价格，相比于前代继续降低50%，流式传输的神经网络也为更进一步控制成本提供了可能。此外，OpenAI已宣布，Plus用户将可立即在MacOS桌面端使用GPT-4o，而Windows和手机端的支持将在年内后续推出。

风险因素：

AI核心技术发展不及预期风险；科技领域政策监管持续收紧风险；私有数据相关的政策监管风险；全球宏观经济复苏不及预期风险；宏观经济波动导致欧美企业IT支出不及预期风险；AI潜在伦理、道德、用户隐私风险；企业数据泄露、信息安全风险；行业竞争持续加剧风险等。

投资策略：

OpenAI推出GPT-4o印证了我们年初的判断，即OpenAI在2024年将重点发展易于商业化落地的多模态能力。GPT-4o的测试评分证明了端到端模型的商业潜力，我们认为这是实现商业化的最优路径。鉴于GPT-4o在语音转换和图片模态融合方面的能力，我们预计OpenAI将在年底前推出更多相关功能，并适配端侧AI。GPT-4o在智能度、延迟性和交互便捷度方面均优于Siri，其端到端设计保证了任务切换的一致性。当前挑战在于模型的进一步缩小以适应端侧硬件性能，我们预计这一过程需要半年到一年的时间。除了端侧机会，我们还建议关注教育和音视频社交媒体领域的应用落地情况。

股市回暖，抄底炒股先开户！智能定投、条件单、个股雷达……送给你>>