OpenAI多模态应用再“截胡”,OpenAI GPT-4o与谷歌Pixie引领交互趋势

OpenAI多模态应用再“截胡”,OpenAI GPT-4o与谷歌Pixie引领交互趋势
2024年05月15日 10:21 荷马国际

精简概述

1、人机交互定义

2、苹果+OpenAI VS谷歌

接上期视频,OpenAI发布会“截胡”谷歌在5月14日凌晨召开,而谷歌不甘示弱又先于OpenAI发布会前爆料,为 I/O大会预热。据传谷歌也将在 I/O大会上发布与GPT-4o类似的在Gemini加持下名为Pixie的个人数字助理。两者放出的内容更是有着相似之处,都是可以实时识别摄像头所展现的信息并做出反应,展现了新的人机交互体验形式。

图片来源:X

PART.01

首先我们来解释一下何谓人机交互(Human-Computer Interaction,HCI),人类通过以互联网技术为支撑的电脑、手机等媒介所进行的“人-机-人”双向互动传播行为,目标创建一个无缝、直观和高效的用户与计算机之间的交互环境,从而提高用户的满意度和生产效率。随着技术进步、用户心智提升,人机交互形式也在不断演变升级。

●手工作业阶段:采用手工操作和依赖二进制机器代码

●作业控制语言及交互命令语言阶段:采用批处理作业语言或交互命令语言

●图形用户界面(GUI)阶段:引入了桌面隐喻、WIMP(窗口、图标、菜单、指针)技术,实现直接操纵和“所见即所得”的理念,作为GUI延伸,以HTML和HTTP为基础的网络浏览器成为了人机交互的新平台。

●多模态交互阶段:强调交互自然性,通过使用触摸、语音和虚拟现实(VR)和增强现实(AR)技术,在人工智能AI辅助下获得更加个性化的交互体验。

PART.02

在交互技术领域,各家公司通过发表技术论文和推出创新技术手段,展示了他们在该领域的研究成果和发展方向。Meta公司开发了VR和AR产品,并推出了Codex Avatars,使用人工智能和智能手机摄像头创建逼真的虚拟化身。Epic Game则是推出了RealityScan移动应用,允许用户通过手机拍摄现实世界中的3D物体并创建3D模型。由于篇幅有限,我们另外找个机会再细讲。今天主要讲讲苹果、OpenAI、谷歌这三家公司。

OpenAI官网表示GPT-4o是迈向更自然人机交互的一步,它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。同时拥有极快的响应速度,最短响应时间为232毫秒,平均为320毫秒,与人类反应时间几乎一致,大大提升了用户体验。另外就是最叫人惊喜的一点,GPT-4o在感知交互上真的达到了类人的表现。在发布会演示视频中,GPT-4o还展现出了害羞的情绪。在图像交互演示中,我们可以看到GPT-4o可以解读面部表情,展现了对视觉信息的高级处理能力。:16

这不经让人想象,如果技术继续进步,未来是否真能变成像电影《Her》所描述的那样具有高度智能和情感理解能力的人工智能系统。

说起语音、文字不得不提到就是苹果的Siri,作为首个广泛商业化的智能个人助理,推动了智能语音助手技术的普及和发展,改变了用户与电子设备交互的方式,使得语音命令也成为另一种主流交互手段。但随着众多竞争对手的出现,比如亚马逊的Alexa、谷歌助手(Google Assistant)和微软的Cortana等,Siri不能满足用户对于理解能力、响应速度和个性化服务等的需求,且人工智能大模型的兴起,让原先具有优势的苹果Siri逐渐走向落寞。

Siri是专门为苹果设备设计,侧重于与苹果生态系统的集成,主要通过语音交互的智能助理。而苹果在人工智能浪潮中一直慢一步,自研大模型MM1具备图像识别和自然语言推理能力,但至今还没有公测。

图片来源论文:https://arxiv.org/abs/2403.09611

没赶上人工智能捞一波金不说,苹果收入也在不断下降。根据苹果最新发布的2024年第一季度的财报来看,今年第一季度,苹果公司营收超 907 亿美元。去年同期,这一数据为948亿美元,下降了4%左右。其中iPhone、iPad、可穿戴设备、家居和配件等业务都在下滑。以手机举例,2024年第一季度,全球智能手机市场迎来增长,出货量同比增长11%。三星以20%的市场份额重归榜首,而苹果以16%的市场份额位居第二。苹果如果再不思变,很有可能其市场领导地位就会被其他公司代替。

苹果将在6月10日的 WWDC 2024 上展示其在人工智能领域的最新成果。据悉届时苹果将发布全面更新的 Siri。据爆料苹果为了助力AI技术发展,与OpenAI将达成合作协议,允许iPhone使用OpenAI 的相关技术。而OpenAI在这时官宣GPT-4o,是否已经赋能新版Siri,我们尚未可知,一切静待 WWDC 2024。一旦靴子落地,可以说Siri 将具备更强的对话功能和更多的适用场景,苹果将打一个漂亮的“翻身仗”。

谷歌则被称为安卓垄断者,还是以手机举例,根据StatCounter截至2023年6月的数据,Android系统以70.79%的市场份额领先于iOS的28.44%,谷歌则通过GMS成为全球大部分安卓应用开发的基础。尽管Android在用户数量上占有优势,但苹果App Store的开发者收入却是Google Play Store的两倍,表明iPhone用户在应用支出上的平均消费是安卓用户的7.4倍。据谷歌Pixel部门产品管理副总裁布莱恩·拉科夫斯基所说,谷歌更先进的Gemini大模型明年将嵌入智能手机。更有消息称在本届I/O开发者大会中,谷歌还将会发布新款Android15移动操作系统。上个月Android 15的开发者预览已经发布,谷歌将在I/O大会上进一步介绍其中的新功能,可能会加入更深度的Gemini集成。产品功能提升能否带来收入的增加?这个我们拭目以待。

同时本月21日,微软也将召开“Build开发者大会”,市场猜测其大概率会将OpenAI最新能力集成到自家产品线中。GPT-4o落地,是否又会影响一批像Perplexity AI一样在OpenAI模型基础上发展业务的公司,明天还有谷歌I/O 2024,不知会发生什么大变化,跟我们一起接着往下看!

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部