作者 | 廖恒、姚骏
近日,华为Fellow、2012实验室和海思首席科学家廖恒与2012实验室诺亚方舟实验室主任姚骏相聚黄大年茶思屋直播间,深聊AI话题,碰撞思想的火花。三个小时的对谈,几乎没有任何事先准备,全程“即兴”,但妙语连珠,干货满满,让人印象深刻。
01
我们“争论”比较多
Q:听说姚老师和廖博相见恨晚,每次见面都会彻夜长聊。最近你们讨论最热烈的是什么话题?
廖恒:我觉得我们最近可能争论比较多,但其实我们一直都是争论比较多,主要原因也是因为与姚老师这边承接的角色有关系,我想他的角色是双重的。一方面,主攻盘古大模型的训练,这一块是对公司具有重大价值的;另外一方面,诺亚团队是“研究”的角色,在不断追赶世界一流企业、学术机构做出来的成果,探索未来的模型应该长什么样,所以在这两方面,我们会有一些“争论”,这些争论当然都是建设性的讨论。
姚骏:我和廖博之前是没有见过面的师兄弟的关系。平日里我们聊得也挺多的,也有几次开完会后,我们还有想法想要探讨,就会彻夜畅聊。我们平日里的争论,或者说探讨,是因为我们看问题会有不同角度,廖博各方面的想法都很深入,尤其是他会从算力到整个系统这个角度来思考AI怎么做,怎么突破瓶颈……我带领的团队很大一部分工作是在承接如何迅速缩短差距的任务,如何追赶业界领先公司,但是追着追着,我们越往后做,越发现我们要进入突破赶超的过程,需要很多不一样的思考了。现在很多问题,我们都是摸着石头过河,廖博在其间给我们的一些建设性的提议,都是很有帮助的。诺亚也是一个多元化的团队,很多同学能力强,思路也敏捷,有时候我也会邀请廖博直接指导我们的一些项目和方向,然后一起讨论,继而推动去做。
Q:两位是如何看待国内AI的发展?
廖恒:在AI这件事上,我们距离国外可以说略略落后一点点,但落后的并不是那么巨大。像华为这样的企业,其实还是比较争气的。
经过过去六到七年的持续努力,我们还是有些成果的。第一个,铲子卖得很好,第二个,我们完全可以继续搞好人工智能,这一点是毋庸质疑的。那么接下来的问题是,怎么样让人工智能能够给个人的生活带来便利?另外,更重要的是对千行百业,怎么样把AI这种新的技术手段转换成生产力的提升,或者生产效率的提升?
姚骏:我们有信心在依托于华为强大的全栈式AI的能力的情况下,来把基础大模型这一块“螃蟹”吃好。
Q:如何看待AI大模型的价值?
姚骏:做了AI大模型以后,有一个好的事情是,我们把对算法工程师的需求转化成了对Prompt工程师(提示工程师)的这种需求。就是说,可以让真正每一个人都会有激活大模型、展开AI创造力的机会。人工智能的研究和使用受限的瓶颈就从算法工程师受限,变成了我们的想象力受限,而人类的想象力是不缺的。所以我觉得,人工智能以后会在各方各面,我们生活当中都会用到,都会越用越好。
实际上,大多数现代的基础大模型、各种各样训练出的模型,它其实是起到了一个帮助我们进行创意生成、帮助我们进行降本增效的一个过程。但这个路径还是比较长。我们现在在做大模型的第一步,不是说提高到最高尖子的水平,而是可以起到提高分数线的作用。
02
大模型本质是一个调音台
如何描述AI大模型的功能?
廖恒:大模型,尤其是我们现在看到的transformer结构的大模型、GPT这些类型的模型,它本质上就是一个调音台,就是一个录音棚。大模型的推理的工作过程和录音棚在制作交响乐的唱片的过程,有极大的类似性。因此,你可以认为大模型的Attention Block( 注意力模块 )就是一个带有Reverb(混响)功能的调音台,只不过这个调音台的通道数非常的巨大,每一个头就已经是上千尾,然后又有96个头或者更多的头,相当于有96个调音台,每一个调音台处理128个乐器的输入。然后深度方面,又重复了很多遍,把这个声音反复加工。
大模型是反复重复的Transformer Block,每一个block里头有两个模块,第一个模块就是Attention Block,第二个模块就是FFN(Feed-forward Network,前馈神经网络)。我们认为Feed-forward 模块,它就是一个字典的功能。比如说你的输入是个英文单词,输出是个中文单词,输出和输入之间有一个映射关系。
大模型是不是未来AGI(通用人工智能)大规模应用的最终架构形态?
廖恒:过去两年AI领域发生了巨大的变化,且变化的速度如此之快,那我们当然无法判断当下这个瞬间使用的手段就是终极的手段。甚至可以说大概率不是,因为我们发展变得太快。同时,包括思维链、逻辑推理能力,还有更复杂的功能代入能力等等,其实当前的模型都没有证据证明它们具有这种能力。所以我大胆地猜测今天的AGI还有点距离。
事实上,什么叫做终极的形态?我认为“最终”这个词永远都不会到来。也许是人类把自己整灭亡了,那就是终极形态。只要不灭亡,总是会有人在现有的东西上面再前进一步,而且这个前进甚至是不连续的。
姚骏:像我们现在这个基础大模型,确实展现了比较强的能力。因为它确实是能够把我们普通的一个AI的应用提升到一个很高的平均数。它的大规模应用应该是不成问题,但是不是能直接变成未来的AGI呢?这个也不一定。
我觉得首先我们要自己定义好,什么是AGI,它的模型是什么样子?我们才能用AI进行努力去达到这一点,否则的话基本上是没有机会的。
AI浪潮来袭,我们如何面对?
Q:大模型会替代人类的工作吗?这其中最重要的因素是什么?
廖恒:我觉得任何一个大模型,它要完成对人类产生的帮助,首先是在工作场景中。我先把人类的工作分成两类,一类是蓝领工作,一类是白领工作。蓝领工作就涉及到有些“必要条件”的缺失,这个必要条件我后面再说。蓝领工作,意味着你要用身体,用手脚、动作、力气去完成某些任务,因此你一定要有身体,还要有一个物理的系统,可以把你对周围环境的感知、你要完成的任务和你的身体的动作关联在一起,那这其实就是大家所说的Embodied AI(具身智能)。就是说你没有body,你就做不了蓝领工作,这个身体就是必要条件。
而白领的工作,比如开会、写邮件,更多的是符号式的,通过交互实现功能。所以白领工作,是需要非常复杂的上下文的,这就是白领工作的“必要条件”。比如华为公司,新来一个员工,无论什么岗位和领域,都不是来了就能立刻上手工作。你首先需要接受价值观的培训,然后接受公司的各种规章制度的培训,接下来还要被角色赋能:来了这个部门,你的角色是什么?你要干什么事?你还会被安排一个导师,带领你学习,让你知道这个角色中正确的行为是什么。然后你被安排到一个项目里,项目里面有100多个人,有的人是leader,有的人是项目经理,有的人是程序员,你又被分配到了其中一个模块,这个模块的目标也要被赋能,SE得告诉你,你要做什么。这是一个超级复杂的上下文,也就是说,一个人要完成有用的白领的工作,他要被带入到一个上下文中,他才知道今天要干什么:有人问一个问题,我该怎么回答;碰到一个代码的bug,我应该朝哪个方向去debug(除错)。所以,所有行为,除了通识之外,除了IQ、推理能力之外,还得要有一个必要条件——没有上下文就免谈。
这个上下文,如果套用到今天大模型的范式,就意味着,如果一个模型要帮到你,比如这个你,是华为一位员工,它就得要知道你过去一个月甚至一年开的每一个会,领导给你交代任务,以及你跟下属、SE的讨论、项目进度,所有这些东西,都是你的上下文。那么,我们反过来想一想。假设有一个模型,有一个Agent(智能体),它就跟你我一样,我看到的东西就是他看到的;我听到的就是他听到的;我说的每句话,它都记录下来了;我在键盘上每一个操作,它也都记录下来了。那么这个东西就是token序列,这个序列很长。比如说,过去记录三年的事,可能就得要有1G,或者至少是几百兆的token。这个东西是最最重要的,因为没有这个东西,它怎么可能帮到你呢?
如果你是为一家银行建立的Agent,它最好是经过了财经大学的培育,这些财经相关的知识它都很懂。如果你是为一个律师行做助理,那最好是法律的教科书、民法通则全部都学过,可能对它这个Agent更加有效,我觉得一定是有帮助的。当然这个观点其实有极大的争议,因为有非常多人立刻就会想到他的工作要被机器取代了,或者是,他的所有隐私被暴露无疑了,这些都是合理合法的担忧,但我们在这里只是讨论技术的愿景。
姚骏:我用一个笑话来回应一下为什么上下文这个事情是比较重要的。大家都知道爱因斯坦,有一天爱因斯坦的司机就跟他说:“我听过你去做了太多的报告了,你的相对论我已经很熟悉了。”爱因斯坦说:“好,那今天你就帮我去做报告,我给你开车。”然后,那司机就上去讲,他讲得很好。然后呢,有听众提问,司机说:“这个问题请我的司机来进行回答。”这个小故事里面的几个点跟廖博刚才说的故事很相像。首先他是在这个知识体系里面浸润过的,所以他大差不差地能复述。我用现在的生成模型,可以提高我的效率,他可以帮我去开会,他可以帮我记东西。但是,难点出在什么地方呢?他需要融会贯通。一旦要产生交互了,那他就不行了。他就说:“要让我的司机(其实就是爱因斯坦)来进行回答了。”
Q:如何看待AI研究的人才要求?
廖恒:我们的AI的这个社区里面99%的人都是实验科学家,理论科学家1%都没有。但是你回想一下历史上的重大科技突破,我相信第一个设计Transformer的人,他不是实验科学家,他是有insight的。因此,我们在研究体系里头需要加强对这个东西的背后的数学本质的一些思考。
打个比方,我们既需要吴健雄,也需要杨振宁。这个也许只要一万个人里头,只要有一个杨振宁就行了,同时有9999个吴健雄,但是一个杨振宁都没有是万万不行的。
姚骏:确实AI本身是实验科学的,就学习本身就是通过实验学习出来的,这一块我们也是要不断去进行尝试,就是碰到过数据和没碰到数据,然后训练过这些和没训练过数据。同时,我们也希望在各方面的探索上,能够把不同领域的知识叠加到一起,就是把经验叠加到一起。
如何看待研究人员被AI替代?
廖恒:我猜这位同学可能有一种焦虑,被替代的焦虑。我认为这是完全没必要的。比如说我们刚才前面讨论的问题里头,提出来两个重要的,一个是频域处理的问题,一个是字典处理的问题。这两个问题无一不是算法问题,所以我觉得不存在被降维打击的问题。当一个问题被解决的时候,又有一个新的问题出现,而且这个问题只会越来越难,越来越多。具有能力的人,或者是勇于学习的人,勇于对周边的新事物、新问题去拥抱,去直面这些问题的人,永远不需要有被打击、被替代的这种担忧,而换一种正面的说法,也是给大家共勉,就是说我们在不断积极地往前走。
姚骏:我们还是要拥抱新的方法。大模型也只是其中的一种方式,只是说现在大模型的一种思维方式,跟我们原来的使用方式不太一样。如果以后大模型都可以写代码,那是不是我们代码工程师就一个都不需要了?很显然不是,因为怎么传承代码就变成一个问题了。你怎么判断大模型写的代码就是对的代码?这个能力是怎么建的?是不是学校里面的编程课不要上了?就算是AlphaGo下围棋下得这么好的情况下,柯洁不是也还在下围棋吗?他不是还在尝试着演进吗?所以这个地方要用到一个更高维的思想模型,就是我们怎么传承我们的知识。人和模型毕竟还是不一样。模型是可以复制的,但是我们是要通过自我的学习、自我的认知才能去掌握这项技能的。然后人还有创造力,创造力不是通过复制产生的。
03
喝咖啡碰撞出思想的火花
Q:总说“专家和年轻人结合起来,组建‘咖啡圈’,‘吵’出奇思妙想。”两位有没有这种“咖啡圈”的小故事和我们分享?
廖恒:在和年轻人交流的时候,我试图把一些工作学习方法,比如说对一些问题的思考,如何思考一些问题的方法,努力扩散,去影响周围的人。当然这不限于华为内部,我们去到大学,和老师、学生交流的时候,也会努力传播。整体上看,我觉得这是有效果的,但是非常缓慢,是一个潜移默化的过程。
这是为什么呢?因为人与人之间是有代沟的,当你试图去传播一个和别人想法不一样的思想的时候,天生就会受到阻力。所以我们在“喝咖啡”的时候,不要太着急想看到立竿见影的效果,只要我们传递了一个好的想法,让别人知道我们的背后逻辑是什么,就是让大家知其然,还知其所以然。相信,如此下去,假以时日,可能3年,也可能10年,这样的效果一定会显现出来的。
姚骏:我想补充一点,从某种角度上来看,我和廖博可能更像一个“连接者”,我们经历过很多项目,有一定的经验。我记得廖博以前说过,他对我们的一些指导,很多想法都是基于他失败的项目比成功的项目多,所以他有很多失败的经验,他开玩笑说,他可能不能确定怎么做一定成功,但是能确定怎么做一定就失败。
我和新员工聊完,或者和我部门的员工聊完,我可能不认同他们的思想,但是我可能在别处会阐述他们的思想。我觉得这就是一个吸收良药的环节,我在这中间起着“连接”的作用,我把大家会遇到的问题,传递出去,大家思维被激活,所以“喝咖啡”一定是一个互相争论的过程,真理越辩越明。
04
大师秘籍
Q:作为很多后辈心中的“大师”,您有什么经验和心得分享给大家?
廖恒:我觉得最重要的是,年轻的同事们,尤其学历越高的同事,不要过早地把自己定位成某某专家。因为我们的这个行业发展得非常快,也许五年十年的时间,你这个领域的专家岗位就会消失,可能这个领域的技术都会被别的技术彻底取代掉。
我想起我在读研究生的阶段,那时候掀起了新媒体的浪潮,和现在的AI浪潮还有点相似,不少计算机系、电子系、自控系等专业的人才等,和算法有点相关的,都冲进去了,去研究图像压缩、视频压缩,每年的论文产出也是上万篇,如今我们回过头看,这些人现在在哪呢?所以如果你死守着做,比如我如果在20多岁的时候,就把自己定位成一个视频压缩器专家,那我早就失业了。因为世界上已经不需要这样的技能,世界已经发展了。但难道这些教育就失去意义了吗?其实没有,我相信大家在学习过程中,不仅是学习了某些知识,也学习到了相关探索的技能,即使以后面对完全不同领域的问题,可以快速摸清楚:能读重要的文献,是被当前发展现状,知道天花板在哪。
所以在学习中,我们会收获一个通用技能,只要你不抗拒潮流,用一个喇叭口式的天线对周边的问题始终保持兴趣,每每遇到一个问题,也花点点精力,正如之前我提到的“时间积分”,五年十年你就会处于领先地位了。所以我最重要的建议就是保持好奇心,尤其是对年轻的同事来说.保持一种好奇心,然后多花一点点功夫,每碰到一个问题你去了解一下,比别人多想一步。当手头有需要深入研究的问题,除了完成任务之外,再深入多想一层背后还有什么,它的本质是什么……假以时日,就会拥有纵深的维度。打个简单比方,从原子到人体,经过了无数层的层次,这其中涵盖了物理学、生物学、医学、心理学甚至是哲学等多个层次,我们现在面临的这些高科技系统也是如此,从沙子到硅片,就要经过3000多道的制程,然后从硅片在变成芯片的架构,里面又蕴含着无数的知识。底层软件到系统软件,到工具,再到框架、应用、算法,有非常多个维度,从微观到宏观有一个极大的纵深。
大家如果保持一个喇叭口,保持水平方向的边界的拓展的同时,也保持纵深方向的拓展,你就会发现积累产生的效果。世界上的问题永远解决不完,永远会有新的问题需要我们发挥自己的能力和想象空间去解决。
姚骏:首先,华为公司是一个大杂烩公司,大家也都很活跃。当你接触到一个新的事物的时候,千万不要觉得自己是第一人,肯定之前有人已经做过,可以先问一下,站在巨人肩膀上,我自己的经历就是,在自己之前,很多问题有其他人做过。第二,就是要对自己保持怀疑。我自己的亲身经历是,如果一个事情我很快就做完了,那大概率是做错了,或者是没有做到极致。我觉得公司里研究的课题,没有简简单单可以做得到的,如果简单地可以做到,说明我们没有挖透。这两点我觉得是需要保持的。
廖恒:我还要补充一点,还希望大家保持想象力,不要太过势利。其实在华为大家有一种“抄作业”的习惯,从规划到决策,大家习惯会找到行业标杆,看看它是怎么做的,我觉得千万不要觉得有一本“黄历”在前,我们应该保持自己想象的空间。
另外,不要太势利的意思是,虽然我们有KPI的指标,但在把自己本职工作做好的前提下,我们可能有10%的时间和精力和考核无关,可以把这部分留给自己,留给自己的喇叭口,留给自己想要更加深入的问题。我相信大家工作都很辛苦,这10%就得靠我们自己挤出来了,可能就是你茶余饭后的一点一滴时间。所以不要忽视想象力,有了这样的“喇叭口”,再加上时间的积分,就会有收获非常大的累积效应。我相信,一个具有通用的方法和学习、拓展能力的人,在高速发展的科技行业里头,是最最宝贵的。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有