熵与信息(二):热力学熵和信息熵,是同一个熵吗?

熵与信息(二):热力学熵和信息熵,是同一个熵吗?
2024年09月06日 13:42 科学声音官方

信息是什么?在上一集我们就提到过,信息可以降低一个系统的不确定程度。这句话里其实就已经暗含了对熵的描述。熵是对一个系统不确定的度量,而信息可以降低不确定性。

也就是说,熵和信息一定是有关系的,只要我们找到其中的关系,就能把熵是什么搞清楚了。

这件事香农做到了。而且香农定义的熵是基于信息量得出来的,所以也叫做信息熵。

那么信息熵是什么呢?就是简单的把一个系统可以发出的所有信息的信息量加起来吗?没有那么简单。

信息熵

还是用第一集里简化版的“世界杯比赛”来举例,从 8 个球队比赛不知道谁得冠军,到确定阿根廷夺冠。赛前这个系统是不确定的,当决赛完成之后,冠军就成了确定的了。

这个过程从定性的角度去理解很容易,可是如何定量的去衡量 8 支球队比赛之前的这个状态到底有多不确定呢?

在比赛之前最大的特点就是,我们并不知道谁会真的夺冠,而不同的球队夺冠,所带来的信息量也是不同的。

比如说,我们只看阿根廷队和中国队,阿根廷是强队假如他们夺冠的概率 50%,中国队是弱队夺冠的概率是 1%。有两个消息,一个是阿根廷夺冠了,一个是中国队夺冠了,那么根据上一集计算信息量的公式:

可以计算出来,阿根廷夺冠这个消息的信息量是 1 bit,而中国队夺冠的信息量则大概是 6.6439 bit。

一共 8 支球队,每支球队都可以根据自己赛前的夺冠概率计算出,假如自己夺冠了,这条消息所具有的信息量。

所以,一个非常直接的想法是,如果要确认赛前“世界杯比赛”这个系统的不确定性,是不是可以把各自球队夺冠后的信息量加起来表示呢?这个直接相加后的信息量,会不会就是这个系统的熵呢?

不能这么做,这样做之后会让熵这个概念出现矛盾。比如,我们可以简化一下问题,分别看两场比赛,一场是阿根廷和法国队比赛,他们各自赢球的概率都是 1/2,另一场比赛是德国队和中国队比赛,德国队赢球的概率是 99%,中国队只有 1%。

可以分别计算一下他们赢球之后所具有的信息量。

如果系统的熵就是简单的把信息量加起来的话,那么可以看到阿根廷和法国在赛前的熵应该是 2 ,而德国和中国呢,则是 6.6 还要多。还记得我们对熵是如何期待的吗?期待它是对系统不确定性的度量,一个系统不确定性越高,熵应该越大。

但是我们可以从直觉上判断一下,是阿根廷和法国这场比赛的不确定性更高呢,还是德国和中国的比赛不确定性更高呢?肯定是第一场对吧,德国 99% 的概率是会赢球的,这个确定性非常非常高了。这个就和我们前面计算出来的熵的数值不匹配了,前面计算出来反而是第一场是 2bit,第二场至少有 6.6bit。

这显然不合理对吧。为什么呢?

别忘了,中国队要想真的能够贡献那么多的信息量必须有一个前提,那就是中国队需要真的夺冠才行。中国队夺冠的概率是多少?只有 1%。所以,如果这个角度再去考虑不同结局对整个系统贡献了多少信息量的话,应该是先要进行一个加权处理的,让信息量乘以它发生的概率。

这个时候再看把它们加起来,那第一场比赛的熵是 1bit,第二场比赛的熵只有 0.08bit 左右,第二场比赛的熵远小于第一场。这样就比较合理了。如果用数学符号表示出来,就是这样:

假如系统 X 一共有 n 种可能,那么:

如果对概率论有些基础的话,就会发现,熵其实就是一个系统里信息量的平均值(期望值):

这也是香农对熵的定义,从信息量的角度定义出来的熵也被称为信息熵。

信息熵并不是对熵这个概念的唯一定量描述。除了信息熵,还有热力学熵,热力学熵里面也还有克劳修斯熵、玻尔兹曼熵、吉布斯熵等等不同等表述。

这并不是说它们是不同的东西,而是从不同角度分别对“熵”的概念进行的不同描述。它们虽然本质上是等价的,但是都有各自的应用领域,对于我们的理解也各有优势和劣势。

比如,信息熵虽然简单直观,但是它却很容易让人产生一个困惑,那就是熵似乎是一个非常主观的量化指标。

比如在开赛之前,不同人对 8 支球队夺冠概率的概率是可以非常不一样的。这就代表着,不同人面对同一个世界杯比赛,会得出不一样的熵。

熵是主观的?

只要是基于信息量去理解熵,那么这个熵的主观性问题就天然存在。

因为一提到信息,必然涉及到一个通讯过程中,也就是一定有两个系统,一个是信息发送者,一个是信息接收者。在前面的例子中,世界杯比赛是信息发送者,这个是客观的,但是不同人对不同的球队可以有不同的估计。

这样,同样的一个信息,对于不同的接收者就会带来不同的信息量,反推回去,在不同的人眼中,同一个信息发送者的熵就会有不一样的数值。

这里的“主观性”其实就体现在通讯过程必须同时存在两个系统,我们把发送者称为 Alice,接受者称为 Bob。发送者 Alice 的状态是一定的,熵只和系统的状态有关,所以他的熵应该也是一定的,也就是说它有一个客观的数值的。

但是发送者(Alice)和接受者(Bob)之间传递的信息并不直接取决于发送者(Alice)的熵,而是取决于发送者(Alice)和接受者(Bob)两个系统里熵的交集(虽然这么表示不严谨,但仍然可以先这样理解)。

不同的接受者计算出来不一样的“信息熵”,其实是发送者和接收者交集那部分的熵,严格意义上来说这部分应该叫做互信息,用来  表示。

只有在接受者的熵完全包含了发送者(Alice),这个时候的互信息才完全等于发送者的熵。如果有 Bob 和 Charlie 两个接受者,它们可以不一样,但是都完全包含了发送者的熵,那么不论 Bob 和 Charlie 多么不一样,他们按照我们前面的做法计算出来的“信息熵”就一定是由发送者 Alice 自身客观决定的。

要想彻底理解互信息这个概念,需要铺垫一些通讯的知识。这次篇幅不够了,后面会专门介绍一下熵和信息量在通讯领域的作用,到时候再理解这件事就容易了。

不过,即便是通过前面的简单介绍,大家应该有这样一个想法了,信息熵的主观性主要还是因为需要同时考虑发送者和接受者两个系统。那么,如果只单独考虑一个系统的熵,是不是就可以完全将“熵”的主观性排除了呢?

也没有那么简单,我们可以来看一下这样一个例子。

从科普的角度去解释熵,一个经常用的方式就是拿一副扑克牌来举例。一副新扑克牌,它里面牌的大小和花色都是整理好的,所以这个时候的牌熵就小。

如果开始洗牌,扑克牌的顺序就会被打乱,这个时候就代表着熵增。而且在最开始几次洗牌的过程中,扑克牌的次序会越来越乱,也就是熵越来越大。直到扑克牌的次序达到一个几乎随机的状态,此时熵达到了最大,即便继续洗牌熵也不会增加了。

很多人看到这个例子之后,都会产生这样的疑问,这里对于扑克牌“有序”的标准是如何定义?必须按照从 A 开始、2、3、4…… 这样排列下去吗?为什么不能随便规定好一个顺序,认为这是最有序的?

如果随便规定一个次序标准,那么一幅新牌相对于标准反而更加混乱。这样的话,岂不是一个系统的熵要依赖于对于“有序”是如何定义的了吗?这应该也是一种“主观”吧?

这其实有点像是势能,对 0 势能的位置定义不一样,一个系统的势能的具体数字是不一样的。虽然势能的绝对值是不一定的,但是从一个状态到另一个状态,势能增加和减少的大小却是一定的。而且势能最后的大小,只和开始和最终的状态有关,和中间的变化无关。从高处 A 落到 B 点,不论是直接下落,还是先抛起来再下落,最后势能的改变值都是一样的。

熵也是类似的情况,在一个状态正在变化中的系统中,熵改变的多少只和初始、最终的状态有关,和具体的变化过程无关。所以,现在看来似乎只有熵变化量才是绝对的,熵的绝对值肯定是主观的。

这样理解没有问题,但是也有例外。以扑克牌为例,从一副新扑克牌开始洗牌,刚开始的时候每洗一次,扑克牌就会被打乱一次,随着洗牌的次数增加,扑克牌的混乱度越来越高,这也代表着扑克牌的熵在逐渐增加。

但需要注意的是,扑克牌混乱程度并不会一直增加下去,洗牌到一定次数之后,扑克牌已经足够混乱了,再多洗几次牌也不会让扑克牌更加混乱。这个时候也就代表着熵不再增加了。这其实就说明这个扑克牌在这种洗牌手法下已经达到了平衡状态了。

平衡状态下的扑克牌的熵就是确定的了,这当然也就是客观的了。也就是说,不论你设定的标准“次序”,只要洗牌的次数够多,那么就会达到一个确定的熵值,而且这个熵值还不依赖于任何主观因素。

如果把扑克牌换成气体,一张一张的牌就是气体里的分子,牌的顺序就是气体分子的各种状态,洗牌就是气体分子的随机热运动。那么一幅牌从全新状态洗牌到完全混乱的过程,完全可以看作是把各种不同的气体混合到一起之后,随着热运动的作用,气体分子变得充分混合,达到了平衡状态。

这个平衡状态的熵就是客观且确定的。而这里用来描述气体的熵其实就属于热力学熵了,而热力学熵中最有名的就是玻尔兹曼熵。

热力学熵

玻尔兹曼熵的定义是这样的:

这里的 S 就是玻尔兹曼熵, 是玻尔兹曼常数,国际标准下

作为熵的定义,对数计算肯定是少不了的,不过对数计算 ln 里面的 W 就和信息熵有些不太一样了。在信息熵定义中,进行对数运算的是概率值,而这个公式里的 W 不是概率值,它某种程度上就可以代表一个系统在热平衡状态下的混乱程度。有的地方也用 Ω 表示。

这个混乱程度更准确的说法是“给定宏观态对应的微观态的数量”。这里有两个关键词,宏观状态和微观状态。如果用理想气体举例的话,宏观状态就是这个气体的总能量、体积、压强、温度等物理量。微观状态就是气体里的单个分子状态,往往也就是气体分子的动量和位置。

或者更直观一点,可以把分子可以具有的微观状态想象成是一个一个的小格子。不同格子代表着气体分子的不同微观状态,每个气体分子都会根据不同的状态放到这个格子里面。如果两个分子的动量不同,那么就放到两个不同的格子里,如果两个分子的动量相同那就放到相同的格子里面。

“给定宏观态对应的微观态的数量”,这句话有两层含义。

第一层,确定一个宏观状态(比如是标准大气压、20摄氏度、一升纯氧气)之后,在平衡状态下每个微观状态的格子里面的分子数都是确定的。

如果我们就是停留在第一层,这个宏观和微观的对应关系,也完全可以描述出该系统的混乱程度。就像图中里描述的,不同温度分别对应不同的曲线。

玻尔兹曼熵里面的 W 就是代表这个曲线的话,那这个 W 应该是至少应该是一个二维数组才行。

比如像图中描述的那样,一共有 N 个分子,需要放到 K 个不同盒子里面。不同的温度会有不同的分布图。如果想把    温度的分布表述出来,那么一定是需要将 1 到 K 个盒子里的分子数全部表示出来,可以写作:

这样的二维数据显然没有办法直接进行 ln 运算,所以在玻尔兹曼熵的公式里面,这个 W 必须是用一个具体的数值表示才行。

这个时候就需要理解“给定宏观态对应的微观态的数量”这句话里的第二层含义了。

这句话里说的“数量”并不是每个微观状态盒子里的分子个数,而是要统计一下在气体处于当前 (比如    )的分布曲线的情况下,一共可以有多少种可能性。

假如说,气体里面一共有 N 个分子、K 个微观状态盒子,那么 W 应该等于把 N 个分子,按照分布曲线装入 K 个盒子里面一共有多少种可能性。

具体怎么做呢,我们可以一步一步地来。

把 N 个分子装到第1个盒子里,第1个盒子在一个  温度下能且只能装  个分子,相当于从 N 个里面挑  个,所以一共有 种情况。然后看第 2 个盒子一共可以装 个分子,因为还剩下的 个分子,所以一共有 种情况。以此类推,所有的情况都可以写出来然后相乘就是最后总的可能性了具体如下:

这种总数,比起二维的数据一定是丢失了信息的,但是对于一个系统整体的熵已经足够了。丢失的信息是什么呢?这部分丢失的信息,代表着无法把某个具体的微观状态里会有多少分子还原出来。也就是说理论上存在两个系统熵相同,但微观状态不同的情况。

有了玻尔兹曼熵的基础,再去看扑克牌洗牌这个熵增的过程,就可以做一些定量的分析了。

为了方便我们简化一下洗牌的方法,每次洗牌都会让一张牌随机出现在它原本次序的正负 2 格之内。原来一张牌的位置是 10,那么洗牌 1 次,它就可能随机出现在 8 到 12 任意一个位置。如果洗牌 2 次,那么最开始位置 10 的那张牌,就有可能出现在 6 到 14 的任意一个位置上。

当然这个时候 6 到 14 这几个位置对应的概率还是不一样的,6 和 14 要小一些 (毕竟要连续减 2,或者连续两次加 2),9、11 的概率就要大一些,10 的概率值最大。总之就是一个类似正态分布的情况。

随着洗牌的次数增加,最开始 10 号位置的牌,就可能出现在任意一个位置,而且每个位置出现的概率还会趋于平均。到了这个时候就达到了熵最大的情况,也代表着达到了平衡状态。

从热力学熵到信息熵

其实讲到这里,玻尔兹曼熵和信息熵互相之间还是割裂的,因为决定玻尔兹曼熵大小的是 W,而 W 是一个和个数有关的数量值。信息熵就完全不同了,信息熵里面起决定性因素的是概率值。一个是数量值,一个是概率值,这互相之间应该如何产生联系?

其实也很简单,因为某个事情发生的次数除以所有情况都发生的次数得到的就是概率值。反过来,一个概率值的倒数,其实就可以理解为是这个事件发生的次数。

所以,次数和概率值互相之间是可以互相转化的。只不过玻尔兹曼熵里的 W 要想转化成概率值,还需要借助一下斯特林公式:

其中  是关于  的一个无穷小量,所以在 n 很大的时候它可以忽略。

具体如何利用斯特林公式将玻尔兹曼熵的形式变成像那样的信息熵的形式,就需要一些数学推导了。其中涉及的数学知识不会超过高中,感兴趣的话可以详细看一下。如果不看也没关系,知道次数和概率是可以相互转化的就可以了。

具体的推导过程如下:

这个其实就已经是吉布斯熵了,可以看出它和信息熵的形式几乎一致,都是以作为主体,不一样的只是对数运算的底和一个常数系数。虽然前面的推导过程并不那么严谨,不过还是可以从中看出热力学熵和信息熵本质上都是相同的。

而这也是为什么冯·诺伊曼看到香农的公式之后,让他把它叫做熵的原因。

熵本来是一个热力学里的概念,但是自从它和信息之间的联系被发现之后,原来在物理体系下很难得到的解决的问题就可以被更容易解决了。这其中最有名的就是物理学四大神兽之一的“麦克斯韦妖”了。

但是要想解决这个问题,那就需要通过熵将信息和能量的关系建立起来。我们下一集就一起来讨论这个问题。

熵与信息的关系,是个非常有趣且深刻的话题。如果你想了解更多关于信息论的内容,推荐你收听“得到”APP的付费专栏《吴军:信息论40讲》。这个专栏中,吴军老师以通俗易懂的语言,详细讲述了信息论的基本原理、发展历程以及在现代科技中的应用,从通信技术到人工智能,信息论的精髓贯穿始终。

相信通过这 40 讲的深入剖析,你不仅能够开阔科技视野,更能够深化对世界的认知,让你在信息时代中游刃有余。

科声用户专属福利 🎁

满200-20元,全网仅限科声用户专享!

悄悄告诉大家,满减后到手价比在“得到APP”内购买还要低哦~

还有还有,优惠券可无限次领取,

超过200元的专栏,分别领券下单都可立减 20!

*请注意:下单购买时的手机号一定要

和登录“得到”APP 的手机号保持一致,

否则会导致购买后找不到已购课程!

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部