CAAI名誉理事长李德毅院士：机器如何像人一样认知——机器的生命观_

如果上一代人工智能可以叫做计算机智能，硬核是算力、算法和数据的话，那么新一代人工智能应该是有感知、有认知、有行为、可交互、会学习、自成长的机器智能，其硬核是交互、学习和记忆，而量子认知机的落地应用，则可能是下一代人工智能，也许要到百年之后。

一

如何让机器能够像人一样认知？这是当今智能科学难以回答而又必须回答的问题。

人类这个物种在近300万年的进化中，脑的大小几乎增长了4倍，超过了过去6000万年的总增长率，已经成了地球上认知能力最强的生物，正是认知成就了今天的人类。在人类文明史上，理解人类认知和精神的生物学本质，曾经被认为无法纳入科学研究的范畴，现在如日中天，科学已经发展到从人类认识客观世界到认识自身，特别是认识人脑认知的新阶段。令人惊异的是，这类研究主要不是出自创立宗教和神学的圣人，不是出自哲学家、思想家和教育家，而更多的是出自生命科学家和人工智能学家，他们从进化论、遗传学和细胞学中寻找人类认知的生物学基础，尤其通过物种多样性、基因工程以及认知神经生物学，探寻人类认知的生物学基础。

细胞是构成人体形态结构和功能的基本单位，形态相似和功能相关的细胞，借助细胞间质结合起来形成结构，成为组织；几种组织结合起来，共同执行某一种特定功能，并具有一定形态特点，就构成了器官；若干个功能相关的器官联合起来，共同完成某一特定的连续性生理功能，即形成系统。人体由多个系统组成，以维持生命，例如运动系统、消化系统、呼吸系统、循环系统、泌尿系统、生殖系统、内分泌系统、免疫系统。人体被划分成不同系统，只是人类认知自身的一种方法，可称为视图。实际上人体未必是可以这样分开来谈的，这只是人们用不同视角更深刻地去认知自己而已。很难区分这些系统哪个更重要。从生命科学的角度看，它们应该具有相同的复杂性，不存在脑器官最复杂之说，这或许只是人类对自身理解的一个“偏见”。还有一些其他的划分方法，例如，结构生物学把生命科学分为基因生物学、原子生物学、分子生物学、大分子生物学、蛋白质生物学、细胞生物学、神经生物学等，也未尝不可。人们已经形成一个共识：结构在生命科学中举足轻重。

二

机器认知要和人相比，并非一件容易的事情。人体依靠新陈代谢为生，一条鲜活的生命，新陈代谢一刻也不能停止，由循环系统供应人脑能量，有了源动力，人脑才能承担认知的任务。机器能量的供给，对应人体的消化系统、呼吸系统、泌尿系统，尤其是循环系统。循环系统是生物体的细胞外液（包括血浆、淋巴和组织液等）及其赖以循环流动的管道组成的整体。人体形成心脏以后，循环系统分心脏和血管两大部分，叫做心血管系统，是生物体内的运输系统，它将消化道吸收的营养物质和由肺吸进的氧输送到各组织器官，并将各组织器官的代谢产物，通过同样的途径输入血液，经肺、肾排出。它还输送热量到身体各部以保持体温，输送激素到靶器官以调节其功能，是整个人体的动力来源。诺贝尔奖获得者薛定谔告诉我们，人和所有生物一样都遵循最基本的物理定律，都会衰老，都赖负熵为生，机器也一样，需要依靠能量，形成秩序，通过和外界交互，产生负熵。如果机器里的材料老化了，结构破损了，被切断了能源，或者时钟出了故障，对外交互中断了，那么，机器的生命就停止了，相当于人心脏的机器时钟停止了跳动，认知活动的模拟也就难以为继。以前人们常常说“心灵”“爱心”“心智”“用心学习”，不是很准确，心脏只是动力，是推动血液在体内循环的肌肉器官，不是用来产生情感、知识和智能的地方，脑才是信息处理的器官。软构体寄生在硬构体上，精神寄生在物质上，两者之间不但没有断层，而是难舍难分，把物质和精神、科技和人文分为二元，不够贴切。

智能机器是由物质、能量、结构和时间四要素组成。物质是静止的能量，能量是运动的物质，结构和时间寄生在物质和能量上，形成诸多硬构体，软构体可以寄生在硬构体上，也可以寄生在已有的软构体上，把各种硬构体按照结构设计组装到一起，就成为机器。机器里一定要有一个最基本的时钟，时钟赖能量为生，时间寄生在时钟上，形成时序。结构和时间寄生在硬构体上，如同基因寄生在每一个细胞的蛋白质上。可以存在很多的软构体，它们或者寄生在硬构体上，或者寄生在软构体上，用来表达概念、信息、数据、知识，与外界交互，还可以自我复用。

自然进化，物竞天择，使得人类有了想象力和创造力，可以创立丰富多样的软构体，如果软构体相互之间不能自洽，甚至冲突，会导致软构体陷入局部死循环，如同人得了精神疾病，仅仅从物质和能量层面考虑是难以治愈的。智能源发于人脑，特别是源于难以计数的各类神经细胞相互作用所致的复杂性，大脑新皮质才是学习和记忆的思维器官，形成认知空间。如果没有记忆，我们就永远活在当下，就不会有时间的概念，正是记忆让我们能够为过去和现在提供了连续性。只要机器有了动力，机器的时钟不停，依靠时间，机器就表现出秩序和能力，就可以表达和交流信息，实现知识和智能的积累，实现机器认知的自成长，于是机器可以完成认知的任务。如今，高性能计算机里的时钟精度已经可达到飞秒，甚至亚飞秒，原子钟芯片的时间精度可达到10－11，正在走向商用量产。机器里无论是复杂机器指令或者精简机器指令的执行，以及寄生在机器语言上的各种软构体的执行，通过递归复用，表现出高超的秩序，可以实时地与人进行交互，完成自然语言对话，通过图灵测试，甚至可以通过暴力计算和暴力仿真，完成蛋白质折叠的结构预测，也就不奇怪了。

把生命看成机器，薛定谔称之为“活细胞的物理观”；如果把机器看成生命的话，我们可以称之为“机器的生命观”。生命和机器里的物质都可以对应物理层，生命里的生化层，在机器里面我们把它对应为“能量和时钟”，生命里的生理层对应机器里面的电子电路和机器指令，这些是硬构体；心理层对应着操作系统和中间件，认知层对应高层次软件和数据，这些都是软构体。因此生命赖负熵为生，时钟依赖能量，时间依赖时钟，秩序依赖时间。生命和机器都可以作为认知的载体，从物质到能量、到信息、到知识、到智能、到精神、到人文、到艺术。越往上软构体越多，常常递归调用，依靠自我复用实现自成长。时间是人类认知的奠基石，数学是人类最抽象的软构体，是人类在自然语言基础上使用的最抽象的专业语言。

三

要弄清楚智能机器如何同人一样，具有认知能力，我们首先关心机器的“具身智能”，提出“具身智能”的第一人当是图灵，他在1948年就称之为“embodied intelligence”。机器对应人体的运动行为系统，机器具身行为是判断机器智能最基本的准则。运动行为系统由骨、骨连结和骨骼肌三种器官组成，表面肌肉的外层还有皮肤，约占成人体重的60%。骨以不同形式连结在一起，构成骨骼。骨骼支撑形成了人体的基本形态，并为肌肉提供附着，在神经支配下，肌肉收缩，牵拉其所附着的骨，以可动的骨连结为枢纽，产生杠杆运动。运动系统首要的功能是运动，无论是简单的移位，还是高级活动如说话、书写等，都是由骨、骨连结和骨骼肌实现的。运动系统的第二个功能是支持，构成人体基本形态，头、颈、胸、腹、四肢，维持体姿。第三个功能是保护，由骨、骨连结和骨骼肌形成了多个体腔，颅腔、胸腔、腹腔和盆腔，保护脏器。从动力学角度看，骨是被动部分，骨骼肌是动力部分，关节是运动的枢纽。运动系统由骨、关节和骨骼肌组成。全身各骨借关节相连形成骨骼，起支撑体重、保护内脏和维持人体基本形态的作用。骨骼肌附着于骨，在神经系统支配下收缩和舒张，收缩时以关节为支点牵引骨改变位置产生运动。人体通过与客观世界的交互来改变自身行为，人体的这种具身动力学行为表现为具身智能。有时候，我们希望机器具有类人一样的行为智能，称为人形机器人，或者说有温度的机器人，实现人的分身，外显情感，体现亲和力，尤其是数字虚拟人，例如数字演员、电视节目数字主持人、数字医生、数字律师和学校的数字教师。而更多的时候，我们希望用智能机器完成一些专门的脑力和体力工作，相比于人，它们可能更有速度，如无人驾驶车辆；更有力量，如未来的智能盾构机；更加精巧，如纳米机器人；更加灵巧，如柔软操作手、软体机器人；更加适合野外地形环境里的运动、攀爬和捉拿，如多足机器人，等等。这些实体机器人，外形像不像人并不重要，人工智能主要不是单纯仿人行为的生物工程。其运动行为（尤其是工业、农业领域里的机器人）必须能够在所处环境、甚至恶劣环境中完成特定工作任务，才是机器存在的基础，它们首先是人类体能的体外延伸，当然也是人类智能的体外释放，图灵称之为“体外智能（disembodied intelligence）”，离开身体的智能即人工智能。智能时代人类正在把自己从繁重的体力和脑力劳动中解脱出来。

四

从认知的角度看，我们最关心的是机器对应人体的神经系统。神经系统是对机体内的生理、心理、思维功能活动的调节起作用的，由神经组织组成，分为中枢神经系统和周围神经系统。中枢神经系统又包括脑和脊髓，周围神经系统包括脑神经和脊神经，还有连接各种感觉器官的末梢神经。神经系统控制和调节其他系统的活动，维持机体与环境的交互。神经系统由神经细胞组成，对感知、认知起主导作用，通过和外界的信息交互获得负熵。智能机器常常把人工神经系统比作觉知系统和认知系统。

我们认为，区别于其他物种，人类的进化主要体现在一双手的进化，语言能力的进化，尤其是大脑皮质的进化。如果说，意识、欲望、情感和性格更多地体现了人类从爬行动物、哺乳动物几亿年前进化而来的烙印，反映在脑干和边缘系统里的话，那么，智能则主要体现在人脑300万年来进化出的特有的新皮质上。尽管在大脑皮层四个叶区研究发现有很多很多的任务分区，但是皮层组织存在着局部与整体的自相似性，记忆并不是存储在某一个神经元，而是存储在网络当中，可以用人工智痕细胞网络模型作为大脑皮层的长期修饰、修剪或重塑的通用表征，从而形成各智其智、智人之智、智智与共的通用智能。大脑皮质上有很多沟沟回回，可以用分形技术把它产生出来，大脑皮层的表面积其实并不是只有那约2200平方厘米，是可以足够大的，是用进废退的，是每个人都不一样的。语言的诞生可追溯到人类社会交流中的行为模仿，思维的本质是抽象和联想，更多的就是软构体的创立、联结，以及迭代发展和递归执行。人类的整个认知活动逻辑上可分为感知—认知—行为，对应三个区：瞬时记忆区、工作记忆区和长期记忆区。瞬时记忆区处理不同感觉器官获得的感知信息，完成跨模态融合；工作记忆区分析当前问题的态势，形成决策，控制机器的具身行为；而在长期记忆区里留下了我们认知的结果。因此，对智能机器而言，怎样构建人工智痕细胞网络模型是一个很重要的问题，我们不妨假设，被当前问题注意力激活的人工智痕细胞组成的网络是一个具有幂律分布特点的复杂网络，呈现小世界特征，可以分别在不同尺度上整体表现，完成记忆的提取。

五

我们讨论自然界生物的进化常用的时间尺度是万年，讨论人类生态文明现象和体外的人工智能常用的时间尺度是千年。讨论人类思维和认知的进步，也就是科学技术发展用的是百年，现在看十年都会大变样。人类生命进化出来的本能相对稳定，后天认知是可以重塑和快速扩张的，科学技术和机器智能的发展却是天翻地覆的，这种迭代的智能导致了几何级数增长的认知进步和知识爆炸，成就了人类这个物种。科学技术成为人类社会发展的第一生产力，已经是全世界不同价值观群体的共识。因此，人类文明的发展，应该让人发挥人的智慧，机器发挥机器的智能。机器认知跨越了物质科学、生命科学和社会科学三大板块。我们把智能定义为“学习的能力，以及解释、解决问题的能力”。解释、解决问题之道，常常是在物理空间将问题减少一个维度，或者低一阶，要么在认知空间将认知增加一个维度，或者高一阶。人类的认知活动，就是永无止境地缩小物理空间的现实和认知空间的虚拟现实之间的差异。有人把物理现实和虚拟现实称为数字孪生，有人把认知空间的虚拟现实称为元宇宙。随着智能研究在我国形成热潮，随着智能科学和技术学院在全国的普及，如果说上一代的人工智能可以叫做计算机智能，硬核是算力、算法和数据的话，那么新一代人工智能应该是有感知、有认知、有行为、可交互、会学习、自成长的机器智能，其硬核则是交互、学习和记忆，而量子认知机的落地应用，则可能是下一代人工智能，也许要到百年之后了。