谷歌发布地表最强大模型Gemini,多项性能超越GPT-4?

谷歌发布地表最强大模型Gemini,多项性能超越GPT-4?
2023年12月08日 23:08 智芝全研究

北京时间 12 月 6 日,谷歌正式宣布推出其规模最大、功能最强的多模态大模型Gemini,并针对不同场景发布 Ultra、Pro 和 Nano 三个不同版本。

其中 Ultra 模型对标 GPT-4(V),Pro 模型对标 GPT-3.5 模型,Nano则包含了 1.8B、3.25B 的小模型,计划引入 Pixel 等移动终端设备。

Gemini 1.0 的 Ultra 版本在多项能力上超越 GPT-4,并且成为第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型。

碾压GPT4?

本次谷歌推出的多模态大模型 Gemini 依然采用 Transformer 架构,采用高效 Attention 机制,支持32k 的上下文长度,1.0 家族涵盖 Ultra、Pro、Nano 三类模型,各有定位。

谷歌的 Gemini 大模型具备跨模态复杂推理的能力,并能根据用户交互生成多模态的信息响应。在多学科和多语种等特定领域中的表现优于其他同类型的大模型。谷歌预测,Gemini 未来将有助于人类阅读、筛选和理解大量信息,在科学研究、金融等众多领域实现突破。此外,其高质量代码的生成能力也将进一步扩大其在代码助手领域的应用范围。

Gemini 主打在多模态领域的突出能力:

(1)文本领域,Gemini Ultra 在多项基准测试中领先于 GPT-4,并成为现有第一个在大规模多任务语言理解(MMLU)方面超越人类专家的模型。

在谷歌技术报告中,公司将Gemini 与 GPT-4 以及此前谷歌最强的语言大模型 PaLM 2 等等进行了比较,Gemini Ultra 在32个广泛使用的学术基准测试中,表现出了超越当前最佳成果(SoTA)的优异性能,全面领先于 GPT-4。

Gemini Ultra 以90.0%的得分成为首个在MMLU(大规模多任务语言理解)上超越人类专家的模型,MMLU 基准测试综合使用数学、物理、历史、法律、医学和伦理学等 57 个科目来测试大模型世界知识和解决问题的能力,人类专家表现作为基准被衡量为 89.8%。Gemini Ultra 在新的MMMU基准测试上也表现出色,取得了59.4%的优异成绩,优于之前由GPT-4V创造的56.8%的最佳效果。该测试涵盖了不同领域中需要深思熟虑的多模态任务。

数学方面,Gemini Ultra 在初等考试和竞赛级别问题集上表现出色,对于 GSM8K(小学数学基准测试)而言,Gemini Ultra 在使用链式思考提示和自一致性的情况下达到了 94.4%的准确性。

在编码方面,Gemini Ultra在HumanEval(标准代码完成基准测试)上正确实现了74.4%的问题。在新的Python代码生成任务的评估基准Natural2Code上,Gemini Ultra取得了74.9%的SOTA。

根据谷歌Deepmind官网显示,由Gemini驱动的AI编程助手AlphaCode 2实现了巨大改进,其编程能力超过了85%的人类参赛程序员,性能较前一代AlphaCode高出将近50%。

(2)多模态领域,Gemini Ultra 在图像、视频、音频多项基准测试中同样实现超越 GPT-4V。在图像理解方面,Gemini Ultra 在多个任务上取得了显著改进,无论是回答自然图像问题、进行扫描文档的文本识别,还是理解信息图表、图表和科学图解。在多模态多学科理解(MMMU)基准测试的六大学科(艺术与设计、商业、科学、健康医学、人文社科和技术工程)中,Gemini Ultra 均领先于 GPT-4V。

在视频理解方面,Gemini Ultra 展现了强大的时态推理能力,在各种少镜头(Few-shot)视频字幕任务和零镜头视频问答任务上取得了最佳表现。

在音频理解上,Gemini Pro 模型在英语和多语言测试集的所有自动语音识别(ASR)和自动语音翻译(AST)任务中都明显优于 USM 和 Whisper 模型。Gemini Nano-1 模型在除 FLEURS 以外的所有数据集上也优于 USM 和 Whisper。

(3)此外模态组合领域,Gemini 还展示了处理多模态输入、跨模态推理的强大能力。根据谷歌技术报告《Gemini:A Family of Highly Capable Multimodal Models》中的示例,Gemini可以针对学生解答物理问题的过程进行评判和解答。模型能够正确识别所有的手写内容,并验证推理过程。同时,它还能够理解问题设置,并将输出内容以LATEX格式生成。在跨模态任务处理中,Gemini可以根据图像和文本组成的提示,生成相应的图文内容并实现交互。在样例中,当给定蓝色和黄色两种颜色时,Gemini生成使用纱线制作猫和狗的建议。而当提示修改为粉色和绿色两种新颜色时,Gemini则生成使用纱线制作带有粉色种子的绿色牛油果以及带有粉色耳朵的绿色兔子的方案,并且附上相应的图片作为示范。

一系列宏伟蓝图

从大型模型应用的角度来看,与OpenAI相比,谷歌的商业版图更为广泛。Gemini系列具有强大的规模和功能,预计将快速融入谷歌的生态系统。未来的商业模式具有极大的想象空间。

接下来 Google 将推出 Bard Advanced 对标 ChatGPT+,该产品预计在 24 年推出,由 Ultra 驱动,常规 Bard 则升级为 Gemini Pro驱动,对标 ChatGPT(GPT3.5 驱动)。除 Bard 外,Google 将于24 年推出 Google Workspace、Google Search、Pixel 8 Pro 等产品与 AI 应用的结合。

谷歌表示,在根据行业标准进行的一系列测试中,功能最强大的Gemini Ultra版本表现超过了OpenAI的GPT-4技术。在对一群特定客户进行测试后,该版本预计将于明年初向软件开发人员广泛提供。

这一系列的宏伟蓝图,推动谷歌市值在周四短短一天内激增了逾800亿美元,几乎相当于目前尚未上市的OpenAI的估值——OpenAI估值目前普遍认为在800亿至900亿美元之间。

毫无疑问,市场当前对Gemini发布的热烈欢迎,与今年2月份谷歌Bard聊天机器人发布时形成了鲜明对比。当时,谷歌在宣传视频中分享了不准确的信息,以及公司发布活动未能给人留下深刻印象后造成的近1000亿美元市值蒸发。

美国银行的分析师在6日指出,由于人们对于谷歌的AI能力感到担忧,Alphabet今年承受了一定的压力,而一款“具有良好品牌形象的、竞争力较强的模型”可能会吸引更多消费者使用谷歌搜索,并对云服务的销售产生积极影响:“数据显示谷歌拥有一流的、不可复制的AI能力,这可能对公司在2024年上半年的股票走势产生积极影响。”

摩根大通的分析师在6日的一份报告中写道,尽管市场在当天没有对Gemini给出明显的反应,能够看到谷歌在“这一主要技术转变”中的进展还是十分“鼓舞人心”。然而,摩根大通也指出,大模型在“搜索领域的货币化路径存在不确定性”,可能会在未来带来一些阻力。

谷歌最强TPU与AI超级计算机

与新模型一起亮相的,还有新版本的TPU芯片TPU v5p,旨在减少训练大语言模型相关的时间投入。TPU是谷歌为神经网络设计的专用芯片,经过优化可加快机器学习模型的训练和推断速度,谷歌于2016年起开始推出第一代TPU。

据谷歌介绍,与TPU v4相比,TPU v5p的浮点运算性能提升了两倍,在高带宽内存方面提高了3倍。使用谷歌的600 GB/s芯片间互连,可以将8960个v5p加速器耦合在一个Pod(通常指一个包含多个芯片的集群或模块)中,从而更快或更高精度地训练模型。作为参考,该值比TPU v5e大35倍,是TPU v4的两倍多。

谷歌称,TPU v5p是其迄今为止最强大的,能够提供459 teraFLOPS(每秒可执行459万亿次浮点运算)的bfloat16(16位浮点数格式)性能或918 teraOPS(每秒可执行918万亿次整数运算)的Int8(执行8位整数)性能,支持95GB的高带宽内存,能够以2.76 TB/s的速度传输数据。

谷歌表示,所有这些意味着TPU v5p可以比TPU v4更快地训练大型语言模型,如训练GPT-3(1750亿参数)这样的大语言模型速度比TPU v4快2.8倍。

除了新硬件之外,谷歌还引入了“人工智能超级计算机”的概念。谷歌云将其描述为一种超级计算架构,包括一个集成系统,具有开放软件、性能优化硬件、机器学习框架和灵活的消费模型。

演示视频质疑“造假”?

在推出Gemini后,谷歌发布了一个时长六分钟的演示视频,展现了测试员和Gemini的一些有趣互动,其中包括让Gemini识别图片并用多种语言描述、让Gemini利用一张地图设计智力问答、和Gemini玩杯子游戏和推理小游戏等等。在整个过程中,Gemini的反应速度都非常快,还会生成音频和图片来辅助回答,并用上一些口语化乃至幽默化的表达,可谓是让人大开眼界。

有人质疑,这段视频并非实时录制,而是多轮尝试并精心挑选和剪辑而成。根据 YouTube 上的视频描述,可以发现 Google 有一个重要的免责声明:“为了演示的目的,他们已经减少延迟,为了简洁,Gemini 的输出也缩短了。”这意味着Gemini实际的响应时间要比视频中的长。

随后,谷歌在一篇博客文章中解释了多模态交互过程,基本上也间接承认了只有使用静态图片和多段提示词拼凑,才能达成演示视频中的效果。

例如,在文章中,谷歌承认,不同于视频中对于猜拳手势的快速反应,只有在向Gemini同时展示这三个手势并提示其这是游戏时,Gemini才会得出猜拳游戏的结论。

谷歌DeepMind研究和深度学习负责人副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)在一篇帖子解释了团队是如何制作该视频的。“视频中的所有用户提示和输出都是真实的,只是为了简洁而缩短了。”维尼亚尔斯说,“该视频展示了使用Gemini构建的多模态用户体验是什么样子。我们这样做是为了激励开发人员。”

这个回应遭到了The Verge编辑的批评:“这当然是解决这种情况的一种方法,但对谷歌来说可能不是正确的方法——至少在公众看来,谷歌已经被OpenAI今年的巨大成功打了个措手不及。如果它想激励开发人员,就不能通过精心编辑的、可能歪曲人工智能能力的精彩视频。”

有投资人表示,这或许也反映出新一波AI浪潮之下Google的焦虑。此前凭借AlphaGo在围棋领域的表现,Google在全球掀起了一波AI浪潮。但这一轮AI新浪潮的风头却被OpenAI的ChatGPT抢走,Google需要一款现象级AI产品来证明自己在人工智能领域的实力。毕竟产品的真正实力不能只看宣传片,更重要的还是在实际应用中的比试,届时用户将“用脚投票”。

关于我们alphalio:“FinTech, FunTech”, 让金融变得有趣。智芝全智能科技是一家坚持科技以人为本的金融数据公司。我们力争成为全球最普世化最前沿以智能量化为主题的投资研究机构。同时密切关注ESG监管要求和ESG投资动态,专注ESG和股票价值传播,提供最快、最新、最全的ESG和最新股票金融资讯和解读。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部