前瞻|OpenAI推出GPT新模型,端到端加速边缘侧落地

前瞻|OpenAI推出GPT新模型,端到端加速边缘侧落地
2024年05月15日 08:09 市场资讯

登录新浪财经APP 搜索【信披】查看更多考评等级

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

陈俊云  贾凯方  高飞翔  刘锐

OpenAI于北京时间2024年5月14日推出了其最新旗舰AI模型GPT-4o,在保持与GPT-4同等智能水平的基础上,实现了文本、图像和语音处理的全面提升,尤其是引入了业界领先的实时语音功能,同时OpenAI宣布将免费开放GPT-4o给所有用户,plus用户仅会优先体验部分功能以及享受每天更高的使用限额。GPT-4o作为一个原生多模态端到端模型,所有输入输出均由同一神经网络处理,同时整体API价格相比于前代也下降了50%,这为将大型语言模型部署到边缘设备提供了可行的技术路径。我们认为GPT-4o的推出预示着交互方式的变革,实时语音输入与反馈将极大提升用户交互体验。我们看好GPT-4o代表的多模态交互革命,建议重点关注未来1年内可能落地的端侧AI的相关机会,并持续关注应用在教育、音视频社交媒体等领域的相关落地情况。

事件背景:

北京时间5月14日,OpenAI宣布推出其最新旗舰AI模型GPT-4o,该模型预计将在未来几周逐步融入OpenAI的全线产品。据OpenAI首席技术官穆里·穆拉蒂介绍,GPT-4o在保持与GPT-4同等智能水平的同时,在文本与图像处理上实现了显著提升,并新引入了实时语音功能。测试数据表明,GPT-4o已超越谷歌Gemini等竞争对手,成为市场上领先的多模态模型。虽然GPT-4o将向ChatGPT的免费用户提供,但使用上会存在一定限制。Plus用户将享受比免费用户多5倍的消息限制,而Team和Enterprise用户则享有更高限制。 

模型概况:基础性能全方位提升,语音TTS成为最大亮点。

OpenAI研究员William Fedus在发布会中透露,GPT-4o即是此前在大模型竞技场进行A/B测试的模型之一,其elo分数较4月9日的GPT-4 turbo版本提升了4.8%,在语音生成与转换方面表现尤为出色。GPT-4o对音频输入的响应时间缩短至232毫秒,平均为320毫秒,接近人类的反应速度。该模型能够识别并响应用户的语调和语速,并在多人对话中准确区分不同发言人的语气风格及情感。在英文文本和代码处理上,GPT-4o与GPT-4 Turbo表现相当,但在非英语文本处理上取得了明显进步。此外,GPT-4o运行效率更高,使用成本较之前API降低了50%,在视觉和音频理解方面展现了更优越的性能。

端到端原生多模态:跨文本、视觉和音频端到端训练的模型,所有输入和输出由同一个神经网络处理。

GPT-4o是一个原生多模态融合模型,通过端到端训练,能够处理文本、音频和图像的任意组合输入,并生成相应的多模态输出。在语音翻译任务中,GPT-4o的表现超过了OpenAI的专业语音模型Whisper-V3以及谷歌和Meta的语音模型。对比此前ChatGPT处理语音信息的流程:首先将通过一个模型将语音转为文本,然后由GPT-4处理并生成文本,最后再由另一个模型将文本生成为语音,GPT-4o是一个完全重新训练的端到端模型,所有输入输出均由同一神经网络处理,模型可能使用了一种基于神经网络的流式编码技术,传输运动变化的Token。如果这个可能性成立,OpenAI后续可以在边缘设备上部署一个小型神经网络,并通过评定内容长短来为边缘端分配算力,这为后续可能的边缘端部署提供了切实可行技术手段。

交互革命:交互方式改变为端侧部署提供新的想象空间。

GPT-4o的更新预示着语言模型交互方式的变革,实时语音输入与反馈将极大提升用户交互体验。此前大模型的端侧部署有两个较大的问题:1)端侧交互模式受限,大多数端侧用户并不能接受一个需要打字输入的交互模式,而三段式的语音大模型延迟较高。2)端侧成本较高,在成本上无法支持频繁的端侧调用。而与以往的语音模型相比,GPT-4o真正解决了实时语音延迟问题,使得高性能大语言模型的端侧部署成为可能。同时在成本方面,GPT-4o也继续优化API价格,相比于前代继续降低50%,流式传输的神经网络也为更进一步控制成本提供了可能。此外,OpenAI已宣布,Plus用户将可立即在MacOS桌面端使用GPT-4o,而Windows和手机端的支持将在年内后续推出。

风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

投资策略:

OpenAI推出GPT-4o印证了我们年初的判断,即OpenAI在2024年将重点发展易于商业化落地的多模态能力。GPT-4o的测试评分证明了端到端模型的商业潜力,我们认为这是实现商业化的最优路径。鉴于GPT-4o在语音转换和图片模态融合方面的能力,我们预计OpenAI将在年底前推出更多相关功能,并适配端侧AI。GPT-4o在智能度、延迟性和交互便捷度方面均优于Siri,其端到端设计保证了任务切换的一致性。当前挑战在于模型的进一步缩小以适应端侧硬件性能,我们预计这一过程需要半年到一年的时间。除了端侧机会,我们还建议关注教育和音视频社交媒体领域的应用落地情况。

本文节选自中信证券研究部已于2024年5月14日发布的《前瞻研究行业重大事项点评—OpenAI推出GPT新模型,端到端加速边缘侧落地》报告,具体分析内容(包括相关风险提示等)请详见报告。若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。

重要声明:

本资料定位为“投资信息参考服务”,而非具体的“投资决策服务”,并不涉及对具体证券或金融工具在具体价位、具体时点、具体市场表现的判断。需特别关注的是(1)本资料的接收者应当仔细阅读所附的各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。(2)本资料所载的信息来源被认为是可靠的,但是中信证券不保证其准确性或完整,同时其相关的分析意见及推测可能会根据中信证券研究部后续发布的证券研究报告在不发出通知的情形下做出更改,也可能会因为使用不同的假设和标准、采用不同观点和分析方法而与中信证券其它业务部门、单位或附属机构在制作类似的其他材料时所给出的意见不同或者相反。(3)投资者在进行具体投资决策前,还须结合自身风险偏好、资金特点等具体情况并配合包括“选股”、“择时”分析在内的各种其它辅助分析手段形成自主决策。为避免对本资料所涉及的研究方法、投资评级、目标价格等内容产生理解上的歧义,进而造成投资损失,在必要时应寻求专业投资顾问的指导。(4)上述列示的风险事项并未囊括不当使用本资料所涉及的全部风险。投资者不应单纯依靠所接收的相关信息而取代自身的独立判断,须充分了解各类投资风险,自主作出投资决策并自行承担投资风险。

股市回暖,抄底炒股先开户!智能定投、条件单、个股雷达……送给你>>
海量资讯、精准解读,尽在新浪财经APP
端到端

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 04-29 瑞迪智驱 301596 25.92
  • 04-25 欧莱新材 688530 9.6
  • 04-01 宏鑫科技 301539 10.64
  • 03-29 灿芯股份 688691 19.86
  • 03-27 无锡鼎邦 872931 6.2
  • 新浪首页 语音播报 相关新闻 返回顶部