全能模型GPT-4o惊艳发布！AI可提供情绪价值，还结婚么？_新浪财经

本文作者尹烨，华大集团CEO

山姆·奥特曼，OpenAI的创始人，他不愧是全球顶级的PR高手+产品经理，我不知道他会不会打麻将，但如果会，一定是一个好手，因为人家会“截胡”。

比如，Google其实早早就宣布，他们会在15号举办开发者大会，结果OpenAI就把发布会从9号推迟到14号，也就是放到了Google的前一天。我相信Google的产品团队压力巨大，前一晚应该注定无眠。

好多朋友跟我一样都会去看发布会，虽然在半夜，但实际上很短，也就半个多小时，奥特曼自己并没有上，由他的CTO Murati 穆姐做了一个简单介绍，然后是现场实时演示。

但恰恰就因为发布会上出现的是一位女性，把我带入一个著名的科幻电影《her》。

OpenAI到底发布了啥？核心就是它的新模型：GPT-4o，以及基于GPT-4o打造的一个全新的ChatGPT。注意，这个不是4.0，而是4“O”，字母O。这个O实际上代表着Omni，它是个拉丁语的词根，意思就是全体或者全面。比如我经常讲的这句话，“学习不会让您变成全知全能”，英文翻译用的就是“omni-scient”。

这个模型凭啥敢叫全能？我们知道，之前的ChatGPT主要是文字，今年大年初七发布的Sora是视频，这次它

把相关的输入一锅烩了。GPT-4o是把文字、语音、图片甚至视频全部包容在内的一个模型，跟以前的完全不同，也应该算是首个原生的多模态模型。

你可能会说：明白了，又能看字，又能听声，还能够看视频，但这有什么了不起的呢？我说一个大家熟悉的场景，比如这段电影，流浪地球里面的Moss。

你琢磨一下，咱们人和人之间，除了身体接触以外的、人类主要的智能交流，不都在这个模型里了吗？更要命的是，如果说Moss在交互的时候还有比较生硬的机械感，这次的模型至少在发布会上实现的效果已经妥妥地接近人类，达到人类，甚至很多方面已经是超越人类的存在。

不管是你输入的硬件（包括摄像头、麦克风等），甚至你的喘息声、你的呼吸，它都考虑在内，都可以用自己的方式去读懂人的情绪，并且经过计算，它还可以设定自己的情绪跟你交互，跟真人几乎一致，这个细思极恐！

要知道在ChatGPT出来的时候，我们都认为它大概率是读不懂话外音的，现在是时候收回这句话了。目前我们已经看到了，只要你的输入是恰当的，甚至都不用充分，它就会用一个不同于人类的思维方式，直接进行人类能够理解的共情！它没有神经元，但这种方式我们居然也可以理解。所以这就是为什么，当我看到发布会演示录像的时候直接就倒吸一口凉气了。

我看了个参数，这个模型对于音频输入的响应时间短至0.232秒，平均大概是0.32秒，和我们人类日常交谈的时序非常接近，而且它可以更快，但我们人类的神经信号传导速度可能已经没有太多进步空间。

这还都是常规内容，如果是复杂点的，比如说几十种语言无缝切换，高位的计算，包括知识检索呢？如果限定时间，真的就比任何一个人类，甚至所有人类，都厉害多了。

这应该算是人类历史上最强大的语音合成，我们叫TTS软件，尹哥最早接触还是在2000年初，微软当时就有，更不用说今天的Siri或者Claude。我也不知道，会不会有很多高级接线员或者资深客服经理被“豪替”而不是“平替”。你甚至可以想象，以后输入一本《西游记》或者《红楼梦》，它分析完了，可以直接分角色进行朗读，听声音就知道谁在讲，那么配音师的职业是不是也岌岌可危？

当然也有评论说：发布会就是样板间，实际使用不可能这么丝滑。确实，有一些已经试用的网友说了：目前还不能实现发布会上可以随时打断它说话的功能。所以GPT-4o至少在当下版本还是一个“话唠”，再加一个“麦霸”。

还有很多理工科的妈妈问我，这个能体会情绪的GPT-4o以后是不是能替代她们，去远程辅导作业？从而解决从母慈子孝到鸡飞狗跳的窘境，以及随时心梗的风险……我估计吧，人类毕竟还是有同理心的，如果孩子知道你在偷懒，而辅导他的又只是个程序的话，这个逆反效果可能更显著……教育上目前你是偷不了懒的。

再就是尹哥身边一群IT宅男们也纷纷咨询，说GPT-4o如果真的和《her》一样，提供情绪价值，再整合到肤白貌美大长腿的机械模型中，就别找女朋友了……我直接反问道，人家女生就更没有找你们的必要了，“直男”往往连情绪价值都提供不了……

讲真，如果AI这么体贴，年轻人会不会更不想去恋爱、结婚、生娃了，几代人以后机器人都自己玩了？而且都是智性恋？这一刻我只能说，儿孙自有儿孙福，碳基退场硅基接。恐龙们自然无法预计今天哺乳动物的迷惑行为，我们也放宽心吧，别为未来的人类操心了，先想想当下的事儿，主要咱也没有这个预测能力。

此刻再回忆1962年，亚瑟·克拉克的这句话，“任何足够先进的技术，其实都与魔法无异”。奥特曼也在未来系列的GPT预告当中多次用了“magic”这个词，我相信他还有很多大招没出，比如说Sora，三维模型的整合都还没有放进去。

这次的GPT-4o，进一步强化了“免费+收费”的商业模型，免费的人人都能用，收费的功能就强大。我相信在维持它商业收益的同时，会极大且很快地增加它的市场渗透率。在全球使用者享受“免费午餐”时，也源源不断地为它提供了新语料去完善它的模型，进而也不断加强。它设定了“开源+闭源”的技术框架壁垒，开源的是较落后的，但还有一个好的在闭源。

所以我不止一次地讲过，AI是一个时代，不仅仅是一个周期，周期还会回归，而时代却只能呼啸而过。面对新技术的这种纷至沓来，是勇敢面对、积极拥抱，还是因循守旧、刻舟求剑，这将决定企业、民族、国家，甚至人类的命运。

就在5月2日，由陶哲轩领衔发布的一个62页的美国AI“登月报告”，非常有料。对于AI的应用，他在宏观层面上强调，“使用AI不是作弊，但需要注明哪一部分是AI做的”。我觉得这是很好的拥抱技术的态度，是真正的管促结合。不能因为AI是新技术，你没见过就说是作弊。如果这个算作弊，那使用搜索引擎就算是对翻纸质书的作弊了，用计算器算不算是对用算盘的作弊，用算盘的又算不算是对用结绳计数、用石子计数的作弊，甚至骑自行车就是对走步的作弊了……五十步笑百步，大抵如此。

技术一直前进，只是我们每一代人都在变老，当你不接受新技术时，你就变老了。

最后，想问一句，什么时候咱们也能用上GPT-4o？国内的大模型，什么时候能够迎头赶上呢？

（本文仅代表作者个人观点）