端侧大模型爆发前夜 商汤日日新性能超越GPT-4 Turbo

端侧大模型爆发前夜 商汤日日新性能超越GPT-4 Turbo
2024年04月25日 16:52 IT时报

作者:孙妍 来源:IT时报

4月24日上午开盘,商汤科技股价飙涨超30%后,紧急暂停交易,停牌价为0.8港元/股,一日涨幅收回近一个月的累计跌幅,商汤股价的久违爆发引发市场的极大关注。

当日晚间,商汤在港交所发布公告称,4月25日上午9时起恢复买卖,公司推出6000亿参数大模型(日日新5.0),在知识、数学、推理和代码能力方面大幅提升,综合性能对标GPT-4 Turbo。同时,公司推出行业大模型一体机版本以及移动端侧大模型SDK版本。

4月23日,商汤科技在技术交流日上发布日日新5.0大模型,其主流客观评测指标达到或超越GPT-4 Turbo,也成为行业首个实现云端边全栈布局的产品,端侧模型性能领先,边侧推出企业级应用一体机,实现按需索取。

“今年是端侧大模型落地的元年,端侧是大模型普及的关键。”商汤科技董事长兼CEO徐立表示。

在AI手机和AI PC连番登场的2024年,商汤能否凭借端侧大模型稳固爆发之势?

对标GPT-4 Turbo 多模态才是看家本领

自去年4月首次发布至今,商汤日日新大模型已经满一年,前后推出五个版本。日日新5.0采用混合专家架构,基于超过10TB tokens训练,覆盖大量合成数据,推理时上下文窗口可以有效达到200K左右,全面对标GPT-4 Turbo。

“妈妈给圆圆冲了一杯咖啡,圆圆喝了半杯后,将它加满水,然后她又喝了半杯后,再加满水,最后全部喝完。问圆圆喝的咖啡多,还是水多?”在现场测试环节,GPT-4被这道推理题难住了,回答:“圆圆喝的水多,咖啡和水的量分别是19/20杯和1+4/5杯。”然而,日日新5.0则经受住了考验,给出了正确答案:“圆圆喝的咖啡和水一样多,各喝了1杯。”

这道题涉及到了文科的中文理解能力和理科的推理能力,日日新5.0此次在文科和理科能力方面均有提升,做到了文理双修,而它的另一大核心能力是多模态。

要知道,商汤是凭AI视觉起家的,比起长文本生成,图像识别才是它的看家本领。如今,商汤多模态大模型的图文感知能力已经达到全球领先水平,在多模态大模型权威综合基准测试MMBench中综合得分排名首位,在多个知名多模态榜单MathVista,AI2D,ChartQA,TextVQA,DocVQA和MMMU 取得领先成绩。

在现场体验区,《IT时报》记者尝试让它理解长图里的信息,以及跨文档的复杂知识抽取,日日新5.0都能较好地完成任务。

端侧大模型元年 AI即将快上手机、汽车

4月23日,商汤还推出了日日新端侧大模型,性能实现同等尺度最优,跨级尺度全面领先。

在一些使用场景下,小模型的决策速度更快。徐立提到,云端联动可以得到最佳的推理效果,商汤实测数据显示,端侧在处理部分场景的占比为70%~80%,推理成本更低。

商汤此前推出的首款面向家庭的元萝卜下棋机器人便是采用了端云协同解决方案,在对算力要求较小的级数,可以在本地推理,而在需要联网搜索或处理复杂场景时分流至云端处理。

这意味着,不联网的情况下,也能在手机等终端上使用大模型处理部分场景。商汤表示,日日新端侧大语言模型的推理速度达到了业内最快,可在中端平台实现18.3字/s的平均生成速度,旗舰平台则达到了78.3字/s。

商汤在发布会上表示,其端侧大模型已经适配高通骁龙和天玑的多款芯片,安卓和iOS移动终端都能使用,除了手机外,PC、车载终端、XR产品等全平台都能支持。

现场测试表明,扩散模型也能在端侧实现业内最快的推理速度,在某主流平台上,推理速度小于1.5秒,比友商云端App快10倍,支持输出1200万像素及以上的高清图片,支持在端上快速进行等比扩图、自由扩图、旋转扩图等图像编辑功能。

一直以来,商汤都是将B端市场作为根本,在端侧大模型爆发的前夜,商汤自然会从B端先切入,于是,商汤也将发布了日日新端侧大模型SDK,企业可以集成接入。而在过去,人脸解锁、相册等手机应用中都集成了商汤的AI功能,这也为商汤推广端侧大模型打下了基础。

“全国有30亿台手机,假如每人每天调用近10次大模型,那么云端的算力消耗成本是巨大的。而在自动驾驶的场景,大模型必须部署在端侧,因为这一场景对数据传输和延迟的要求极高。所以我们要保证绝大部分的大模型调用在端上解决,少部分通过云端。”商汤联合创始人、首席科学家王晓刚在发布会前采访中对记者表示,端侧大模型将是商汤今年的战略重点。

小米集团小爱总经理王刚(左)和商汤科技联合创始人、首席科学家王晓刚

商汤端侧大模型和端云协同解决方案已在小米SU7落地,小米集团小爱总经理王刚也坦承了大模型的使用成本考量:“一开始将大模型部署到手机上时,一台手机一个生命周期的大模型使用成本是20元,这一投入是巨大的,如今大模型成本下降很快,只有之前的四分之一到五分之一,中端和高端机已经可以覆盖,而车对大模型的成本不敏感,反倒是智能音箱对大模型的成本还较为敏感,我们还在考虑如何上大模型,除了硬件出成本外,还有互联网广告变现和用户付费两种变现方式。”

在王刚看来,除了车端,手机AI应用会在今年10月前后大量出现。

算力风暴被分解 大模型一体机成新趋势

如潮水般裹挟各行业的大模型,其带来的算力和推理成本让很多中小企业不堪重负,重复建设算力基础设施也是一种社会资源的浪费,于是企业级大模型一体机成为满足边缘侧AI需求的一种新方案。

当天,商汤面向金融、代码、医疗、政务等多个领域推出边缘产品“企业级大模型一体机”,能支持企业级千亿模型加速和知识检索硬件加速,实现本地化部署,即买即用,降低企业应用大模型的门槛。相比行业同类产品,推理成本节约80%,检索大大加速,CPU工作负载降低50%。

算一笔账,单台35万元的代码大模型一体机,可以支持100多人规模的团队使用,使用成本最低可达每天每人4.5元。

“美国同一个州部署超过10万片H100,电网就会崩溃。”随着微软工程师抛出的这一担忧,算力中心的电力供应短缺问题成为算力风暴后的又一议题。在算力上的超前布局,让商汤能够从容地面对这些挑战。当天,商汤公布其运营算力高达12000P,2024年底预期建设18000P,目前已完成数十款国产芯片的适配与应用。

从大模型兴起以来,商汤智算中心一直是开放的姿态,不仅可以支撑其自身大模型的训练,也能为生态合作伙伴提供训练和推理的平台。而一体机可以被认为是一种本地化部署的新方案,为企业定制算力+算法的专属方案的同时,做到数据不出域。

商汤“朋友圈”集中亮相 文生视频已在路上

金山办公、海通证券、小米、阅文集团、华为……当天,商汤的大模型“朋友圈”集中亮相,展现其在办公、金融、个人出行、文娱等不同领域都有了落地。

在商汤技术交流日前夕,金山办公刚刚发布了面向组织和企业的WPS?365,其中WPS AI这一“企业大脑”集成了主流大模型的AI能力,能自动分析数据,可以当考勤助手,也可以分析合同和销售数据。其实,背后的一位功臣是商汤日日新。双方从2023年起就达成了深度合作,基于日日新的代码生成和工具调用能力开发办公场景应用。金山办公CEO章庆元坦言,我们也测试过GPT-4,准确率不高,在我们的使用场景中,商汤的准确率较高。

提到个人出行,不得不提到小米SU7。近期接住泼天流量的小米汽车,让雷军和小米集团都感到压力巨大。在商汤技术交流日上,小爱总经理王刚也表达了在小米汽车智能车舱中集成大模型的压力,“过去两年多,整个小爱团队的大部分资源都投入到车上,需求要求足够简洁、清晰,需求跟手机有较大的差别,我们在今年1月展示车上大模型效果时,被雷总批评严重,我们同时求助三家合作伙伴,商汤最快,在两三天内就做完了4到5个需求,也达到了预期的效果。”最后,小米SU7在智能车舱中集成了商汤端云大模型解决方案,调用小爱同学为车主提供智能化交互体验。

在金融领域,海通证券与商汤科技联合发布金融行业多模态全栈式大模型,双方在智能客服、合规风控、代码辅助、展业办公助手等领域助推业务落地,共研智能投顾、舆情监控等行业场景,打通证券行业大模型落地的全栈式能力。

当天,商汤还发布了基于昇腾原生的行业大模型,共同打造面向金融、医疗、政务、代码等大模型产业生态。

“商汤在尺度定律的指导下,会持续探索大模型能力的三层架构——知识、推理、执行,不断突破大模型能力边界。”发布会一开始,徐立就科普了一下何为“尺度定律”,这是人工智能发展的最基本法则,也是当下较为清晰的大模型技术演进路径。

“基于尺度定律,未来大模型对于资源投入、软硬件基础设施的要求越来越高,导致大模型企业会收敛,不会从百模大战升级到千模大战。”王晓刚说。

商汤要做的是寻求最有数据配比,并建立数据质量评价体系,在推动自身大模型研发的同时,也为行业提供大模型训练、微调、部署和各类生成式AI的能力。

在sora掀起全球风浪的当下,谁能摘下国内文生视频这一明珠成为最大的悬念。徐立也在最后公布了“one more thing”——三段完全由大模型生成的视频,人物、动作、场景的可控性都达到了较高的水平。商汤宣布,文生视频平台已在路上,未来,输入一段文字或一个完整的描述,就可以生成一段视频,而且人物的服饰、发型、场景都可以根据预先设定,保持视频内容的连贯性和一致性。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部