刚刚,OpenAI发布新一代语音模型,更具个性化的语音agent要来了

刚刚,OpenAI发布新一代语音模型,更具个性化的语音agent要来了
2025年03月21日 08:06 网易新闻

继 2022 年推出首个音频模型 Whisper,OpenAI 于今日凌晨发布了 3 款全新语音模型——

gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts

OpenAI 表示,Operator、Deep Research、Computer-Using Agents 以及 Responses API 的发布,使得基于文本的 agent 在任务执行能力和实用性方面不断突破。然而,要让 agent 真正发挥作用,交互方式必须更加直观,超越纯文本输入,支持自然语音交流

OpenAI 表示,最新的语音转文本(STT)模型在口音适应、嘈杂环境处理以及不同语速识别方面均优于现有解决方案,使其在呼叫中心、会议记录等领域具备更高可靠性。

目前,3 款全新语音模型已经上线 API,开发者可以基于此打造更强大、更具个性化的语音 agent。

详情链接:

https://platform.openai.com/docs/guides/audio

此外,开发者还可以为文本到语音(TTS)模型设定语音风格。例如,可以让 AI 以“富有同理心的客户服务代表”风格进行交流。这使得语音 agent 能够提供更具温度和表现力的语音体验,广泛应用于个性化客服、故事讲述等领域。

先来感受两个语音实例:

体验地址:https://www.openai.fm/

据介绍,此次 OpenAI 通过使用真实音频数据集进行预训练、增强的蒸馏方法以及强化学习构建了全新的语音模型。具体而言:

这些技术创新结合实际应用需求,不仅提升了语音建模能力,还大幅改善了 AI 在真实场景中的表现。

相较于原有的 Whisper,新语音模型在词错误率(WER)、语言识别能力和准确性方面均有显著提升。在多项基准测试中,新语音模型的 WER 均低于现有 Whisper 模型。 WER 衡量语音识别的准确性,数值越低表示转录质量越高。

gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在 FLEURS(少样本多语言语音基准)测试中,覆盖 100 多种语言,表现均优于 Whisper v2 和 Whisper v3,展现了更广泛的语言适应能力和更精确的转录效果。

而且,在主要语言的评测中,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 超过了市场上的其他领先模型,为多语言语音应用提供了更可靠的技术支持。

OpenAI 推出的 gpt-4o-mini-tts 则具有增强的语音可控性(steerability)。开发人员首次不仅可以“指导”模型说什么,还可以“指导”它怎么说,从而为从客户服务到创意故事等各种用例提供更多定制体验。

值得注意的是,这些文本到语音模型仅限于人工预设语音,OpenAI 表示,他们会对其进行监控,以确保它们始终与合成预设语音相匹配。

OpenAI 也给出了一些官方使用建议 ,对于已经使用基于文本的模型构建对话体验的开发人员来说,添加新的语音到文本和文本到语音模型是构建语音 agent 的最简单方法, OpenAI 将发布与 Agents SDK 的集成,以简化这一开发流程;对于希望构建低延迟语音到语音体验的开发人员,可以使用实时 API 中的语音到语音模型进行构建。

未来,OpenAI 计划继续提高音频模型的智能性和准确性,帮助开发者使用自己的自定义语音来构建更加个性化的体验,以及开发其他模态(包括视频)的 agent。

整理:学术君

海量资讯、精准解读,尽在新浪财经APP
开发者
0条评论|0人参与网友评论

APP专享直播

开播时间 | 3-29 13:30
光大期货交易理念分享会
开播时间 | 3-29 14:00
电动汽车百人会论坛(2025):王传福、尹同跃、李斌、雷军等演讲
开播时间 | 3-29 13:43
电动汽车百人会论坛(2025)云展览
开播时间 | 3-29 09:00
电动汽车百人会论坛(2025):陈清泰、朱华荣、雷军、李想等演讲
开播时间 | 3-28 16:00
嘉实基金:【基金经理展开说】科技行情波动,怎么看?怎么办?
开播时间 | 3-28 15:20
连麦光大期货:贵金属、聚酯、油脂油料
开播时间 | 3-28 15:00
国投瑞银:“债”与你相遇 | 债市调整,是风险还是机会?
开播时间 | 3-28 15:00
中信建投证券2024年度业绩说明会
开播时间 | 3-28 14:59
京能国际(00686.HK)2024年度业绩交流会
开播时间 | 3-28 14:30
梦想小镇高质量发展大会暨未来科学π开幕式
开播时间 | 3-29 13:30
光大期货交易理念分享会
开播时间 | 3-29 14:00
电动汽车百人会论坛(2025):王传福、尹同跃、李斌、雷军等演讲
开播时间 | 3-29 13:43
电动汽车百人会论坛(2025)云展览
开播时间 | 3-29 09:00
电动汽车百人会论坛(2025):陈清泰、朱华荣、雷军、李想等演讲
开播时间 | 3-28 16:00
嘉实基金:【基金经理展开说】科技行情波动,怎么看?怎么办?
开播时间 | 3-28 15:20
连麦光大期货:贵金属、聚酯、油脂油料
开播时间 | 3-28 15:00
国投瑞银:“债”与你相遇 | 债市调整,是风险还是机会?
开播时间 | 3-28 15:00
中信建投证券2024年度业绩说明会
开播时间 | 3-28 14:59
京能国际(00686.HK)2024年度业绩交流会
开播时间 | 3-28 14:30
梦想小镇高质量发展大会暨未来科学π开幕式
上一页下一页
1/10

热门推荐

生双胞胎17岁代孕女孩已嫁人 知情人称17岁代孕女孩有生育史 收起
生双胞胎17岁代孕女孩已嫁人 知情人称17岁代孕女孩有生育史

生双胞胎17岁代孕女孩已嫁人 知情人称17岁代孕女孩有生育史

  • 2025年03月27日
  • 11:21
  • APP专享
  • 扒圈小记
  • 20,316
APP专享
妻子举报上海一财政局主任科员出轨副科长,纪委回应

妻子举报上海一财政局主任科员出轨副科长,纪委回应

  • 2025年03月28日
  • 09:18
  • APP专享
  • 扒圈小记
  • 16,933
APP专享
永辉超市:北京第三家“学习胖东来”超市开业,一线员工平均薪资上涨一千多元

永辉超市:北京第三家“学习胖东来”超市开业,一线员工平均薪资上涨一千多元

  • 2025年03月28日
  • 08:25
  • APP专享
  • 北京时间
  • 15,970
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.23 -0.47%
京东方A 4.21 0.00%
TCL科技 4.43 -1.34%
中远海控 14.45 -0.28%
格力电器 45.28 +0.20%
广告

7X24小时

  • 03-31 泰禾股份 301665 --
  • 03-31 信凯科技 001335 --
  • 03-28 泰鸿万立 603210 --
  • 03-26 中国瑞林 603257 --
  • 03-24 首航新能 301658 11.8
  • 广告
    新浪首页 语音播报 相关新闻 返回顶部
    关闭
    关闭