诺奖专家邀请｜Hinton演讲：当AI已经开始理解人类的喜好和情绪_

2024年12月8日，诺贝尔物理学奖首次授予了人工智能领域的科学家，John Hopfield和Geoffrey Hinton因其在神经网络领域的开创性贡献获此殊荣。在瑞典斯德哥尔摩的颁奖典礼上，被称为"人工智能之父"的Hinton讲述了一个引人深思的话题：人工智能如何逐渐学会理解人类。

为何短视频平台总能精准推送符合您兴趣的内容？为何购物网站总能洞悉您的购物偏好？这些日常现象背后，透露出人工智能正逐步具备类似人类大脑的思考与理解能力。诺贝尔评审委员会指出：“神经网络理论促使机器模拟人类思考，这预示着人类社会未来的深刻变革。”在演讲中，Hinton教授以浅显易懂的语言阐述了人工智能的“思考”机制。他举例说：“我们看到水中的铅笔似乎弯曲，但大脑明白它是直的。这种理解力，正是我们期望人工智能所具备的。” 他进一步强调：“AI或将成为继人类掌握火之后的又一伟大发明，它能帮助我们应对从疾病治疗到气候变化等一系列重大挑战。” 鉴于许多读者可能对专业术语感到困惑，让我们通过一个生活实例来解读Hinton的理论：设想您在寻找回家的路，面前有多条路径可供选择。有的路看似近便却可能遭遇交通拥堵，有的路稍远却能更快抵达。神经网络的工作模式与此类似，它不断尝试寻找最佳的“解释”，正如我们寻找最佳归家路线一般。以下图示将帮助我们更直观地理解这一过程。

Hopfield 网络

图示呈现了一个精简版的Hopfield网络，其核心特征在于神经元间采用对称加权的连接方式。该网络的整体状态被形象地称为“配置”（configuration），这一术语借鉴自物理学领域，以更贴切地描述网络状态。每个配置都伴随一个“良度”（goodness）指标，其计算方式直观明了：即所有同时处于激活状态的神经元对之间权重的总和（如红色框内所示）。将这些权重值累加，得出的结果（例如图中的4）即代表当前网络配置的良度。而网络的能量（energy）则是良度的相反数。

Hopfield网络的设计原理在于，网络会自然趋向于达到能量最低的状态（energy minima）。每个神经元都能通过局部计算来决定自身应采取的动作，以降低整个网络的能量，即减少“坏度”（badness）。具体而言，若某神经元接收到的来自其他激活神经元的总加权输入为正，则该神经元应被激活；反之，若输入为负，则应保持未激活状态。当每个神经元都遵循这一规则，且我们随机选择神经元并持续应用此规则时，网络最终会稳定在一个能量最低的状态。

图中所示的配置实际上就是一个能量最低点，其能量值为-4。观察其中的任意神经元，可以发现已激活的神经元由于接收到总的正输入而继续保持激活状态；而未激活的神经元则因接收到总的负输入而维持未激活状态。然而，值得注意的是，这并非唯一的能量最低点。在一个Hopfield网络中，可能存在多个能量最低点，而网络的最终状态将取决于初始配置以及神经元随机更新的顺序。

Hopfield提出了一种创新性的观点，即利用这类网络，将能量最低点视为记忆的存储点。通过运用前述的二元决策机制（决定神经元是否激活），网络能够“修复”不完整的记忆。从部分记忆起始，不断应用该决策规则，网络最终会稳定在一个能量最低点，从而实现记忆的自动补全。这种将能量最低点与记忆相关联的方法，构建了一种“内容可寻址的记忆”系统，即仅通过激活部分记忆内容，网络就能自动恢复完整记忆。

而我与Terry Sejnowski（Hopfield的学生）则探索了这些网络的另一种潜在应用：不用于存储记忆，而是用于对感官输入进行解析。我们的核心理念是，网络应由可见神经元和隐藏神经元共同构成。可见神经元负责接收如二元图像等感官信息，而隐藏神经元则负责构建对这些信息的解释。网络的配置能量反映了解释的“优劣”，我们追求的是能量较低、更合理的解释。

在日常生活中，当我们面对模糊线条的图画时，大脑常常能给出两种或多种不同的解读。这种同一幅二维线条图能被解读为不同三维物体的现象非常普遍。这引发了一个有趣的问题：能否构建一个神经网络来模拟这种多重解释的能力？

为了解答这个问题，我们首先需要深入理解图像中的线条如何对应到三维世界中的边缘。实际上，当我们透过某个平面（如窗户）观察外部世界时，二维平面上的一条线可能对应三维空间中的多种边缘。这些不同的三维边缘在二维平面上可能产生相同的投影线条。这就带来了一个基本的视觉难题：如何从二维图像中的线条推断出真实的三维边缘？

由于物体的遮挡和不透明性，图像中的每条线只能对应一个真实的三维边缘，但确定这个边缘却极具挑战性。为了解决这个问题，我们设计了一个特殊的神经网络。首先，用“线条神经元”来代表图像中的线条，这些神经元的激活状态与图像中出现的线条相对应。然后，由于每条线条可能对应多个三维边缘，我们通过兴奋性连接将这些线条神经元与一系列“边缘神经元”相连。但考虑到每条二维线只能对应一个真实的三维边缘，这些边缘神经元之间需要相互抑制。

然而，仅有这些连接还不足以解决问题。我们还需要引入一些基本的视觉解释原则。例如，当图像中的两条线相连时，我们倾向于认为它们在三维空间中也是相连的。为了实现这一点，我们在那些共享端点的三维边缘神经元之间建立了强化连接。特别是当两条边缘呈直角相交时，这种连接会更为强烈，因为直角在视觉中是一种重要且常见的特征。

通过这种方法，神经网络能够模拟人类视觉系统对二维图像进行三维解释的过程，并可能产生多种合理的解释结果。这为我们理解大脑如何解析复杂视觉信息提供了新的视角和工具。

两个主要问题

我们的目标是，通过精心调整连接的权重，构建一个神经网络，使其具备两种稳定的状态，这两种状态分别对应于对Necker Cube的两种不同视觉解读。这随之带来了两大核心挑战：

搜索挑战：当利用隐藏神经元来解析由可见神经元所表示的图像时，如何确保不会陷入次优解？网络可能会停留在一个相对较差的解读层面，而无法跃升至更优的解读。

学习挑战：之前我提及这些连接是手动设置的，但我们的愿景是让神经网络能够自主学习并建立这些连接。

在搜索挑战方面，神经元的随机性发挥着至关重要的作用。在传统的Hopfield网络中，神经元遵循确定性的决策逻辑：一旦系统陷入某个能量低谷，就仅能沿着能量降低的路径移动。这可能导致系统被局限在局部最优解，而无法触及全局最优。为了突破这一局限，我们引入了随机二元神经元的概念。这类神经元虽仅具备两种状态（激活或关闭，即1或0），但其行为模式却具有概率性。当神经元接收到强烈的正输入时，它几乎确定会被激活；面对强烈的负输入时，则几乎确定会关闭。然而，在输入接近零的灰色地带，神经元的行为就变得难以预测：即使在正输入的情形下，它也可能偶尔保持关闭；在负输入时，也可能意外被激活。

这种概率性的决策机制在处理二元图像时显得尤为有效。具体操作时，我们将图像的二元数据锁定在可见单元上，而对隐藏神经元进行随机初始化。在更新过程中，我们随机挑选一个隐藏神经元，计算其从其他激活神经元接收到的总输入，并依据输入的强度和符号来做出概率性决策：若总输入为强烈的正值，该神经元大概率会被激活；若总输入为强烈的负值，则大概率会关闭；若总输入接近零，则神经元的状态将由概率分布来决定。通过持续应用这一随机更新规则，系统最终会达到一种称为“热平衡”的状态。

热平衡和详细平衡

热平衡是一个源自物理学的概念，它描绘了系统在随机波动中所达到的一种动态平衡状态。这种机制赋予了网络跳出局部最优解的能力，使其能够探索更广阔的解空间，从而有可能发掘出更优的全局解。

一旦达到热平衡，隐藏神经元的状态就构成了对输入的解读。以Necker Cube为例，隐藏神经元可能会为每个线条神经元激活一个对应的神经元，从而形成一个解读，这个解读会是Necker Cube的两种可能解读之一。我们期望低能量的解读能够准确反映数据。因此，对于线条图而言，如果我们能够学习到二维线条神经元与三维边缘神经元之间，以及三维边缘神经元之间的正确权重，那么网络的低能量状态就可能对应于对图像的准确解读，即看到3D矩形物体。

需要注意的是，热平衡并非意味着系统的状态本身达到了稳定，而是指系统所有配置的概率分布趋于稳定。对于普通人来说，这可能难以理解。系统会趋向于一种特定的分布，即“玻尔兹曼分布”。在热平衡状态下，系统处于某一特定配置的概率完全由该配置的能量决定，能量较低的配置具有更高的出现概率。

为了更直观地理解热平衡，可以借鉴物理学家常用的一个比喻。想象一个庞大的集合，其中包含了无数个完全相同的网络。这些Hopfield网络具有相同的权重，因此它们本质上是同一个系统，但每个网络的初始状态是随机的，且各自独立地做出随机决策。在这个集合中，每个可能的配置都会对应一定比例的网络。在初始阶段，这个比例仅取决于它们的初始状态，比如随机初始化时，所有的配置会等概率出现。然而，随着算法的运行和神经元状态的不断更新（尽管有时也会增加能量），每个配置对应的网络比例会逐渐稳定下来。每个网络可能会在不同的配置之间跳跃，但所有网络中某一特定配置的比例会保持不变。这种现象被称为“详细平衡”，此时，系统的配置比例就达到了稳定状态。

生成图像原理

接下来说说生成图像（generating an image）。这里不是解读图像，而是生成图像。生成图像的方式是，从所有神经元（包括隐藏神经元和可见神经元）的随机状态开始。然后，你随机选择一个隐藏神经元或可见神经元，并根据通常的随机规则更新它的状态。如果它接收到大量的正输入，它可能会激活；如果接收到大量的负输入，它可能会关闭；如果输入值接近零，它的行为会有些随机。你不断重复这一过程，直到系统接近热平衡状态。此时，可见单元的状态就是这个网络生成的图像，这个图像来源于网络所“相信”的分布——玻尔兹曼分布（Boltzmann distribution），在这种分布中，低能量的配置比高能量的配置更可能出现。这个网络“相信”许多可能的图像，你可以通过运行这一过程从中选择一个它“相信”的图像。在玻尔兹曼机（Boltzmann Machine）中的学习目标是使网络在生成图像（可以看作网络“做梦”时随机想象出来的内容）时，这些图像看起来像它在真实感知中看到的图像。如果能实现这一点，那么隐藏神经元的状态将成为解读真实图像的一个有效方式，它们将捕获图像的潜在原因。这种学习方式的另一个表述是，学习网络中的权重等价于找到一种使用隐藏神经元的方法，使得网络能够生成看起来像真实图像的图像。这听起来像是一个极其困难的问题，大家都认为这种学习算法会非常复杂。然而，Terry Sejnowski 和我却采取了一种过于乐观的方法。问题是，是否可以从一个随机权重的大型神经网络开始，这个网络包括许多隐藏神经元和随机初始化的权重，然后只需要给它展示大量真实的图像。我们希望的是一种看似荒谬的结果：当网络感知到足够多的真实图像时，它会自动在隐藏神经元之间，以及隐藏神经元和可见神经元之间，创建所有必要的连接，并正确地调整这些连接的权重，从而以合理的方式解释图像，比如识别在直角处连接的 3D 边缘。这听起来非常乐观，而且你可能会认为实现这一目标的学习算法会非常复杂。但令人惊讶的是，玻尔兹曼机的学习算法非常简单。这是我和 Terry Sejnowski 在 1983 年发现的。5、学习两个阶段学习算法分为两个阶段：唤醒阶段（Wake phase）和睡眠阶段（Sleep phase）。

1、在唤醒阶段，网络被输入图像。你将图像固定在可见单元上，让隐藏单元自由活动，直到它们与可见单元达到热平衡。一旦隐藏单元达到热平衡，对于每一对连接的神经元（可能是两个隐藏单元，也可能是一个隐藏单元和一个可见单元），如果它们都处于激活状态，你就增加它们之间权重的一小部分。这是一个非常简单的学习规则，而且符合唐纳德·赫布（Donald Hebb）提出的学习理论。但是，如果你仅运行唤醒阶段，权重只会不断增加，很快所有的权重都会变为正值，所有的神经元会一直保持激活状态。这显然没有用。因此，你需要引入睡眠阶段。

2、在睡眠阶段，你可以将网络看作是“做梦”。通过更新所有神经元（隐藏和可见神经元）的状态，网络趋于热平衡。一旦达到热平衡，对于每一对连接的神经元，如果它们都处于激活状态，你就从它们之间的权重中减去一小部分。这是一个非常简单的学习算法，而且令人惊讶的是，它的确能够实现目标。因此，在平均意义上，这种学习算法会调整权重，使得网络在“做梦”时生成的图像更有可能看起来像它在感知真实世界时看到的图像。这部分不适合普通观众，所以请不要读接下来的两行内容。对于统计学家和机器学习领域的人来说，这种算法的本质是，在期望意义上（也就是说，这个算法有一定随机性，偶尔会做错事，但从平均意义上看），它沿着对数似然的梯度进行优化。换句话说，它使得网络在“做梦”时生成的图像更可能是它在“清醒”时观察到的图像。或者换句话说，权重的变化使得网络认为合理的图像（低能量状态）与它“清醒”时看到的图像更加相似。在这个学习过程中发生的事情是：在“清醒”（Wake）阶段，你降低网络在看到真实数据时到达的整体配置的能量；在“睡眠”（Sleep）阶段，你提高这些配置的能量。换句话说，你试图让网络“相信”它在“清醒”时看到的东西，同时“否定”它在“睡眠”时“梦到”的东西。如果你问达到热平衡的过程实现了什么，那就令人惊叹了。这一过程使得网络的每个权重所需了解的关于其他所有权重的信息都能被提取出来。为了调整一个权重，你需要知道它与所有其他权重的交互关系。而所有需要知道的信息都会体现在两个相关性之间的差异中：一是网络在观察真实数据时，两神经元共同激活的频率；二是网络在“做梦”时，两神经元共同激活的频率。这些相关性在两种情况下的差异包含了权重调整所需的全部信息。令人惊讶的是，与反向传播等算法不同，这种方法并不需要一个向后传播的过程来传递关于其他权重的信息。在反向传播中，前向传播是传递神经元的激活到后续层，而反向传播传递的是敏感性（sensitivities），这种信息完全不同。反向传播因此显得不太可能是人脑的工作原理。然而，当 Terry 提出了玻尔兹曼机的这种学习方法时，我们完全相信这一定就是大脑的工作方式。我们甚至决定，我们将因为这一理论而获得生理学或医学领域的诺贝尔奖。当时我们从未想到，即使这不是大脑的工作方式，我们可能也会因此获得物理学的诺贝尔奖。唯一的问题在于，对于大型网络来说，达到热平衡的过程非常缓慢，尤其是当权重较大时。如果权重很小，热平衡可以快速达到；但在权重较大时，这个过程会非常缓慢。因此，尽管玻尔兹曼机是一种浪漫的、令人着迷的理论——它有一个极其简单的学习算法，却能实现非常复杂的功能，比如构建隐藏单元的网络以解释数据，但其学习过程实在太慢了。所以，这就是玻尔兹曼机在当时的局限性。讲到这里，演讲其实本应该结束了。但是，在 17 年之后，我意识到，如果对玻尔兹曼机进行大量限制，比如隐藏单元之间没有连接，那么就可以得到一个更快的学习算法。如果隐藏神经元之间没有连接，那么“清醒”阶段会变得非常简单。你只需要将输入固定在可见单元上以表示一个图像，然后可以并行更新所有隐藏单元的状态。这些隐藏单元会根据它们接收到的可见输入随机选择一个状态，更新完成后，它们就立即达到了与数据的热平衡。这是隐藏单元的改进。但在“睡眠”阶段仍然有问题：你需要让网络进入一个随机状态，然后更新隐藏单元、再更新可见单元，循环这个过程许多次，直到达到热平衡。这仍然是一个非常耗时的过程，因此这个算法依然不可行。不过，后来发现有一个捷径可以解决这一问题。

他山石智库人工智能领域专家推荐