张亚勤:大模型新的技术发展路径

张亚勤:大模型新的技术发展路径
2024年03月18日 17:01 亚布力中国企业家论坛
张亚勤 清华大学智能产业研究院院长、中国工程院院士

2月21-23日,以“构建新发展格局,推进高质量发展”为主题的2024亚布力中国企业家论坛年会在黑龙江亚布力召开。清华大学智能产业研究院院长、中国工程院院士张亚勤受邀参加【开幕式】发表主题演讲,谈论了他对大模型业态的研究与看法。

以下为演讲全文:

过去五年,大模型已经成为人工智能的一个主流趋势,纵观国内外,该领域都出现了很多新的创新进展,创造了包括Sora在内的很多新产品。人工智能大模型的发展,最重要的基石还是数字化。过去30年,IT产业做得最重要的一件事就是数字化。从物理世界到生物世界,都在全方位地进行数字化变革。

麻省理工学院媒体实验室(MIT Media Lab)的尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)将世界一分为二,分为比特世界和原子世界。认为世界是从原子到信息再到比特的变革过程。如果说早期数字化的内容、企业的发展,是从原子到比特的过程,现在则是从比特又回到原子的过程。数字化为大模型的算力算法奠定了基石,使得其技术实现指数级增长。可以说,没有过去这30年的数字化发展,这些大模型技术就不可能实现。

2022年11月底出现的ChatGPT,其发展速度极具跳跃性。ChatGPT的出现表明了以下三点:

首先,第一次有这样一个智能体,通过了图灵测试。其次,它开启了一个通向通用人工智能的亮光。我们离真正实现通用人工智能,可能还有20年甚至更长的时间,但ChatGPT给我们提供了一个方向和道路。第三,大模型是人工智能的一个操作系统。有了大模型之后,才算真正开启人工智能时代。

每次一有新的操作系统出现,原有的产业生态就会被完全改变。PC时代的Windows操作系统,用的是Intel芯片;移动互联网时代的 IOS、安卓系统,用的是ARM的芯片;AI时代的横向大模型操作系统,用的是XPU芯片特别是GPU芯片。这些系统上都有应用商店和各种APP。以GPT4为例,它有GPT4S的商店,有GPT4个性的应用,能开发出各种各样新的垂直模型。

无论是从设备的数量还是从影响力上来说,和PC时代相比,AI时代的产业机会至少要大好几个数量级。AI大模型的技术还在发展,我预测未来5—10年,大模型技术的发展方向分为以下几个方面:

第一,多模态。未来会出现跨尺度的、跨不同模态的大模型。现在Gemini、Sora都是新的产品形态,有语音、文字、图像和视频,未来多模态会包括各种各样的蛋白质结构,如汽车的激光雷达信息、人脑生物电的信息等,都是不同模态,它们都会进入大模型时代。

第二,新算法。未来5年会出现新算法。现在的算法看起来聪明,但效率很低,比起人类大脑,它的效率至少要低1000倍。包括OpenAI、微软、谷歌的AI产品,用得越多,亏得越多。未来,新的算法架构和技术架构将会带来很大改变,效率会大幅提升。

第三是自主智能。我们把大模型当作一种工具,它也可以把别的模型作为工具,它可以制定目标、规划任务、自动升级,然后自动成为中介,完成这个目标,不需要人为交互或控制,现在这样完全自主的产品已经开始出现了。

第四是边缘智能。现在大模型放在云端上,以后要放在手机、电脑和各种机器人身上,它会放在各种物联网(IoT)的边缘上,边缘也会有智能。

第五是物理智能。它更时髦的称呼是“具身智能”,就是把大模型用到物理世界里。

第六是生物智能。将大模型用到人的大脑、生命体及生物体里,将信息智能、物理智能和生物智能进行融合。

清华大学智能产业研究院(AIR)有三个研究方向:一是AI+自动驾驶/机器人(具身智能);二是AI+IoT(边缘智能);三是AI+生命科学(生物智能)。我举几个例子:

自主智能的智能体,可以用你的模型去调用别的模型,规划任务,让各种模型实现互相调用、互相学习,使每一个模型都比原来更加聪明。

我们也从事了很多边缘智能的工作,有专门的团队研究如何把这些大模型的能力放到汽车、手机和机器人身上。比如,研究如何把计算的效率、模型的尺寸、及其延时和功耗等功能调到最优,使之适配于不同的器件。其间涉及到压缩、定制、微调、部署等很多关键技术。 

在具身智能方面,以自动驾驶为例,百度2016年就开始做自动驾驶开放平台“阿波罗”,下一步开始做人形机器人。通俗点说,无人驾驶就是一个开车的机器人,大模型加速了这方面的技术发展。做无人车有个很大的难点就是长尾效应,不管有多少测试数据,总有一些场景顾及不到,这时候安全性就十分重要。而大模型可以较好地补足这一缺陷,特别是生成式AI可以生成很多平时测试想象不到的场景。比如,构建AI图像生成模型,包括用新的多模态生成工具。未来无论是汽车还是机器人,90%以上都是生成的数据,10%以下是真实的数据,而生成的数据本身的效率和质量会更高。

现在无人车已经开始走向商用。在美国可以看到Waymo(谷歌母公司 Alphabet 旗下的公司)、Cruise(通用汽车的子公司)等公司在尝试商用;国内的北京、上海、武汉等地也已经开启了商用。尤其是武汉最近推出完全无人的汽车。到了武汉,一下飞机就可以用App打车,在江北将近有1000多平方公里的地方,基本都能打到无人车,最长车程长达80公里。不少公司已经开始部署完全无人化的商业试运营。

很多人问我,无人驾驶的ChatGPT时刻是何时?无人驾驶什么时候真正会变成主流?我认为,可能在未来2年,就可以看到无人驾驶的ChatGPT时刻。现在无人车比有人驾驶至少要安全N倍,这从技术方面已经实现了。虽然商业运营想要成功,还涉及到很多其他因素,但我非常有信心。

在生物智能方面,以强脑科技的脑机接口为例,它用的是非植入式的芯片,采用高品质的传感器,用脑电的信号、机电的信号、行为的信号,做脑机接口。用意念和信号去控制行为,并加入人工智能算法,通过脑机接口技术,可以帮助“折翼女孩”弹钢琴、改善人类睡眠等等。再比如,我们自己研发的一个生物医药大模型,在大模型进行训练时,就可以结合知识图谱,将各种固定的信息结合起来。有了大模型之后,就能在上面完成各种任务。

现在无论是语言模型、视觉模型还是多模态模型,人工智能的大模型都拥有强大的功能,未来发展有机会,也有风险。

第一就是信息风险。信息风险一直存在,但大模型带来了更多风险。大模型可以逼真地模拟你的声音、图片和视频。前阵子我在西雅图,大家聊得最多的是,总统竞选马上要开始了,已经有很多人用大模型在模仿拜登或是特朗普。他们害怕这影响选举的公正性,怎样防范信息风险,这确实是个问题。20多年前,我还在微软亚洲研究院做院长时,他们花了3个月收集我的很多数据,做出了一个模仿我声音和视频的“我”,现在只要几秒钟就能做出这样一个“我”,且他们也分不出真假。当技术强大到这种程度,就要注意风险。

第二个风险是,当信息智能拓展到物理智能、生物智能时,如果失控或是被坏人所利用,将造成极大风险。大模型作为操作系统和工具,会用到所有的地方,包括金融系统、军事系统和决策系统,此时风险就会呈指数级上升。

第三是生存风险。前段时间,大家谈到人工智能大模型可能会带来和核武器、流行病一样的风险。现在我们处于人工智能研究和产品开发的早期,尚有很多办法改变它的走向,但如果缺乏这种意识,就会非常危险。

因此,我给各位企业家三点建议:

第一,要建立一个分级体系,特别是建立一个对于前沿大模型的分级体系。一般的人工智能用不着太过严密的监管,但前沿大模型有巨大的能力,对于这种超过万亿、像Sora这样的大模型,一定要加以监管,对使用场景进行必要约束,建立一个完善的评估体系。

第二,要有实体的映射。我一直在做技术,喜欢创新,不希望被管,这次我却认为,前沿大模型需要更多的治理。以AI产生内容的标识为例,需要标识这些内容的产出源,实现这一目标并不难,如果你做个数字人,用AI产生内容,平台上大部分内容都是由AI产生,至少要让大家知道,这是由AI产生的,要标识清楚。此外,在做智能体时,要让智能体有对应主体,让大家知道,这些都是主体的从属体。如果它犯了错误,出现问题,一定要能追溯到主体。这个技术当然有难度,但我认为还是可实现的。

第三,我一直在呼吁,做前沿大模型的公司、基金会、科研机构等,要把做前沿大模型的资金抽出10%,用以AI风险的研究。AI风险研究并不仅仅是政策的研究,还有很多高深的学术研究和技术研究。从事技术的人员必须现在就开始从事这些研究,这样才能与企业、政府共同前进。

现在我们进入了一个真正的人工智能时代,从过去多个算法、多个任务、多个模型,走向现在相对统一的大算法、多模态、自训练、自监督和预训练的大模型。大模型里其实最重要的一点就是Token—based,无论是语音、视频,还是蛋白质的结构,要把所有的模态当作是Token,它处理的方式和算法应该是相对一致的。此外,模型越大的时候,我们对真实物理世界的描述就更加准确。有些人说,我们现在的大模型是真实世界的压缩,它的确是一个压缩的模型,但压缩之后,它还可以再创造,这是新一代智能的涌现和统一。

最近我们在达沃斯大会上有个新预测:到了2030年,数字经济将会达到20万亿美元的规模,这是现在印度和中国GDP的总和;而其中将近10%的GDP,是由大模型、新的生成式AI所创造的。

责编|许加林

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部