导语
科学研究的目标是建立数学模型,准确描述观察到的现象。创建模型有两种常见方法: 根据领域知识手动创建模型并用数据做拟合,或者使用机器学习算法从大型数据集自动创建模型。然而,这两种方法都并非完美。如何从数值数据中寻找有意义的模型,并保持与通过一般逻辑公理表达的先验知识一致,仍然是一个开放的问题。4月12日发表于 Nature Communications 的论文提出了名为 AI 笛卡尔的系统,该系统是一个人工智能科学家,可以结合逻辑推理和符号回归,从公理化知识和实验数据中提取自然现象的模型。研究者在三个系统中测试了 AI 笛卡尔,包括开普勒行星运动第三定律、爱因斯坦相对论和朗缪尔吸附方程。
集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。读书会从2023年3月26日开始,每周日早上 9:00-11:00 线上举行,持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。
关键词:AI for Science,AI 科学家,科学发现,符号回归算法,人工智能
Cristina Cornelio 等| 作者
郭瑞东| 编译
梁金| 编辑
论文标题:
Combining Data and Theory for Derivable Scientific Discovery with AI-Descartes
论文地址:
https://www.nature.com/articles/s41467-023-37236-y
该研究提出的 AI 笛卡尔系统,通过将逻辑推理与符号回归相结合,从公理知识和实验数据中得出自然现象模型的原则推导。该系统对真实世界的数据和小的数据集有效,即当逻辑推理被用来区分具有相似误差的候选公式时,AI 笛卡尔可以从很少的数据点发现支配规律。这个名字是对17世纪数学家和哲学家勒内·笛卡尔的致敬。笛卡尔认为自然界可以用一些基本的物理定律来描述,而逻辑推理在科学发现中起着关键作用。
1. AI 笛卡尔
该系统将推理系统和一种新的基于最优化的符号回归(SR)算法结合。符号回归模型通常比神经网络(NN)模型更易于解释,并且需要更少的数据。符号回归寻找方程来拟合数据。给定基本的运算符,如加法、乘法和除法,系统可以生成数亿到数百万个候选方程,搜索那些最准确地描述数据关系的方程。
AI 笛卡尔的端到端发现系统通过符号回归从数据中提取公式,然后从一组公理中提供公式可导性的形式证明或不一致性的证明。当模型被证明是不可推导时,AI 笛卡尔还提供新措施,表明如何构建近似可推导的模型。如果有多个候选方程与数据匹配,该系统确定哪些方程最适合背景科学理论。推理能力也将 AI 笛卡尔与 ChatGPT 等“生成式人工智能”程序区分开来。ChatGPT 的大型语言模型逻辑能力有限,有时还会搞乱基础数学运算。
图2. AI笛卡尔的系统构建。彩色组件对应于AI笛卡尔系统包含的组件,灰色组件表示科学发现的标准技术(人类驱动的或人工的)),这些技术还没有被整合到当前的系统中。颜色匹配图1中发现循环的各个组件。目前的系统利用符号回归从数据中产生假设,这些假设被作为对自动化演绎推理系统的推测,自动化系统根据背景理论证明或反驳这些假设,或提供基于推理的质量衡量标准。
因此,AI 笛卡尔方法旨在发现一种未知的符号模型,该模型应该可以拟合一组数据点,从背景理论推导而来,具有低复杂性,并具有有界预测误差。系统的输入是四元组,包括背景知识、数据、一个假设类和一组建模者偏好(例如精度的误差限制)。AI 笛卡尔可以从几个数据点发现支配定律,而且逻辑推理可以用来区分数据上具有类似误差的候选公式。
研究将 AI 笛卡尔用于发现开普勒行星运动的第三定律,爱因斯坦相对论中的时间延迟定律,以及朗缪尔吸附方程。
2. AI 笛卡尔的发现实例
2.1 开普勒行星运动第三定律
开普勒第三定律把两个天体之间的距离和它们的轨道周期联系起来,它可以用一个包含周期、距离、质量和万有引力常数的方程来表示。这个定律可以用背景理论的公理推导出来,这里的背景理论描述质心、物体之间的距离、引力、离心力、力的平衡和周期的定义。
AI 笛卡尔的目标是从实际测量的成对质量,它们之间的距离,和它们的轨道周期中重新发现开普勒第三定律。使用符号回归模块得到一组候选公式。三种逻辑度量方法被用来评估这些公式的质量:逐点推理误差、泛化推理误差,和变量相关性。
结果表明,AI 笛卡尔能够利用符号回归模块重新发现原始定律,并且能够从一组具有相似数值误差的候选集中识别出可推导的原始定律。
图4. 数值数据、背景理论和一个已发现的模型描述了开普勒第三定律的行星运动,给出了行星在太阳系的轨道周期。这些数据包括太阳质量的测量值 m1,每颗行星的轨道周期 p 和质量 m2,以及它与太阳的距离 d。背景理论相当于牛顿运动定律,也就是离心力、引力和平衡条件的公式。四元组 (m1,m2,d,p) 投影到 (m1 + m2,d,p)。蓝色流形表示方程的解,该解是从背景理论公理派生出来的函数,表示感兴趣的变量。灰色流形表示所发现模型的解。
2.2 相对论时间膨胀
爱因斯坦相对论假设光速是恒定的,并推理出两个相对运动的观察者会有不同的时间体验,观察到不同的时钟频率。这个定律可以表示为包含时钟频率、它们的相对速度和光速的方程式。
AI 笛卡尔能够使用符号回归模块生成一组候选表达式,从中确定泛化能力最好的表达式。但是,AI 笛卡尔没有从数据中重新发现这个公式。AI 笛卡尔还可以帮助区分不同的公理集,比如假设光的行为与其他机械物体(牛顿力学)一样的公理集,以及假设光速恒定的公理集(相对论)。因此,这些数据被间接地用来区分与所研究现象有关的公理系统。
2.3 朗缪尔吸附方程
朗缪尔(Langmuir)模型描述简单表面的吸附过程,其中吸附剂被假设为理想的固体表面,具有一系列能够与吸附质结合的位点,而吸附质的分子与理想气体的分子类似。模型假设在等温吸附过程中,吸附和解吸是一对可逆过程。
朗缪尔方程将表面上的载荷与接触表面的气体的压力联系起来。这个定律可以表示为一个包含压力、载荷,和表征最大载荷与吸附强度的常数的方程。AI 笛卡尔用两组实验数据来说明,符号回归模块如何使用算符 + ,-,× 和 ÷(其中常数取决于材料、气体和温度)获得具有两个和四个常数的最佳拟合函数。
AI 笛卡尔将背景理论编码成一组公理,包括位点平衡、吸附率模型、解吸率模型、平衡假设,和载荷上的质量平衡。朗缪尔方程可以从这些公理推导出来(加上一些附加的非负性约束)。使用存在量化变量来表示从数据导出的常数,AI 笛卡尔能够证明其中一个公式。
3. 总结
AI 笛卡尔的一个缺陷是假设背景理论的正确性和完整性,这原则上可以通过引入溯因或概率推理来解决。然而,这项工作中使用的背景理论是人为生成的:因为针对物理学和其他自然科学的机器可读公理目前是有限的。另一个限制是自动定理证明程序和符号回归工具的可扩展性,这些工具具有过多的计算复杂性。最后,AI 笛卡尔可以从单个组件的改进,以及通过引入技术如实验设计等中获益。
论文第一作者、剑桥人工智能研究所的科学家 Cristina Cornelio 表示,与其他系统相比,AI 笛卡尔的最大优势在于逻辑推理能力。“我们正在将第一性原理方法与机器学习时代更为常见的数据驱动方法相结合,第一性原理方法从现有的背景理论中推导出新的公式,已经被科学家们用了几个世纪。这种结合使我们能够利用两种方法,为广泛的应用创建更准确、更有意义的模型。”
将逻辑推理与符号回归相结合,AI 笛卡尔能够从公理化的知识和实验数据中对自然现象模型进行原理性的推导。该系统尤其适用于嘈杂的、真实世界的数据,这些数据可能使传统的符号回归程序出错。它还可以很好地处理小型数据集,甚至可以在只有10个数据点的情况下找到可靠的方程。
该方法在各个科学领域都有潜在应用,可以帮助发现有意义的公式,准确地描述实验数据,同时将先验知识表示为约束结合进来。未来的目标还包括训练计算机阅读科学论文,并自己构建背景理论。
本文编译自:https://ai-descartes.github.io
原文题目:AI-Descartes: A tool for science discovery
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有