ChatGPT将满两周年，大模型从信仰scaling law重返探索新阶段

ChatGPT发布将满两周年，预训练阶段的扩展定律（scaling law) 不够用了，算力电力瓶颈也让“暴力美学”的路越走越窄。AI与大模型迫切需要一种新范式。

现有前沿大模型在新基准下现出原形。Epoch AI联合60多位顶尖数学家提出了数学基准FrontierMath，给那些习惯刷题到烂熟的大模型一点挑战。结果，包括Gemini 1.5 Pro、Claude 3.5 Sonnet，以及GPT-4o与o1-preview在内的最强大的大模型，都没能答对超过2%的题目。面对未经“污染”的题库，它们没能证明具备了高级推理能力，需要更前沿的模型的突破。

但也许GPT-5指望不上。它确实休克了。周一，OpenAI代号Orion的下一代旗舰模型，被爆相对GPT-4的提升幅度，要小于GPT-4相对GPT-3；它的代码能力甚至不如旧模型，成本却更高。很多人相信Orion就是GPT-5。被奥特曼暗示是“平庸的深度学习怀疑论者”的Gary Marcus，迅速转发了这条消息，戏称“炼金术曾经很成功，但后来被化学取代了”，并希望从现在开始，业界能取得真正的进展。

扩展定律仍然有效，但边际收益正在递减，终有一天，单纯通过传统扩展来开发前沿模型在经济上将变得不可行。这与未尽研究昨日在2024科学智能创新论坛上对话业界与学界嘉宾得到的观点相似。其中一个重要的原因，就在于目前，大模型已经撞到了一堵“数据墙”。人类社会的高质量数据，目前无法同步高速“扩展”。

南京大学人工智能学院教授俞扬认为，“扩展”对量化指标的描述似是而非，谈不上公式精确的“定律”；目前完全依靠合成数据还无法有效提升大模型能力，而诞生于物理世界交互的高质量数据的产能，又跟不上如今大模型“扩展”的需求。

这也是为什么今年以来OpenAI匀出部分精力研发慢思考模型，以及变身为一家SaaS公司，将“快思考”模型产品化。OpenAI自称o1“更接近AGI”，负责推理研究的Noam Brown则将其视为“新的扩展范式”。经典“扩展定律”专注于用更长的“训练时”，获取更好的输出结果；o1则开始在推理上，也就是“测试时计算”（TTC，Test Time Computing）上追加更多时间，在回答问题之前，通过思维链（CoTs）进行“思考”。

上海科学智能研究院AI科学家肖仰华将GPT类比为大模型获得了“知性”，将多模态交互的4o类比为“感性”能力，将开始“长考”的o1视为“理性”。人类的思维模式无外乎这三种，这也意味着大模型在大方向上的创新，已经进入了平台期，未来，杰出工程师或将退居二线，顶尖科学家要逐步登场。

对“测试时”的研究与探索正在深化。8月，谷歌Deepmind的论文根据给定的提示难度，动态地分配测试时计算资源，发现这比单纯扩展模型参数更经济有效。论文涉及了两种具体的“测试时计算”方式，包括分布验证（PRM）与自我修订（Revisions），前者指通过逐步对每个解答步骤评分来筛选最优解，后者指生成初始答案后在每轮迭代中不断修正优化。结果，采用了测试时计算的PaLM 2-S，击败了一个14倍大的预训练大模型。

11月，研究推进到了“测试时训练”（TTT，Test-TimeTraining）层面。MIT的研究者们发现，采用了这一方法的大模型的准确率惊人，与基础微调模型相比，在ARC（抽象推理语料库）任务上的能力提高了6倍。与TTC相比，TTT同样发生在“测试时”阶段，也就是“推理”的阶段，但更注重直接对模型参数的动态适应，相当于“现学现用”，允许模型在看到新的测试数据时，快速地进行额外的学习，临阵“训练”，临时“微调”。

OpenAI已经不是街上最靓的仔。最早倡导在预训练阶段通过更大数据与更高算力来实现AI进化的Ilya，在离开OpenAI，创办SSI后，也开始研究“传统扩展”的替代方法。“2010年代是扩展定律的时代，现在我们又回到了奇迹和发现的时代。每个人都在寻找下一个东西。”在他看来，“现在，在正确的方向扩展，比什么都重要。”但他没有透露自己的具体方向。

如何将“慢思考”与“快思考”融合起来也是一个方向。它不一定就是一个单一的大模型。之江实验室数据枢纽与安全研究中心副主任陈红阳类比称，人类的大脑在工作时也分成不同区域来协同工作。肖仰华认为未来更重要的是两套系统的双向流动，包括将“慢思考”沉淀下来的知识用于快速决策，将“肌肉记忆”式的“快思考”作为经验传承下去。

一旦预训练大模型在扩展上难以为继，算力基础设施市场的竞争格局也将开始重塑。英伟达几乎独占了预训练大模型的芯片市场，已经开始将o1带来的“第二扩展定律”，写入自己最新的宣传册。但推理注定是一个更异构更分布式的世界，AI巨头正在纷纷打造自己的推理芯片，初创企业也云集在这个仍未定型的市场。告别堆叠大算力芯片的“暴力美学”阶段，对于中国的AI企业与芯片供应链也是一个难得的机会。

大模型正在从对scaling law的信仰时代，重返多元创新的早期探索阶段，2025年，很多企业将处于新的起跑线上。

头条号入驻

未尽研究技术是一种看见自然的方式

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

ChatGPT将满两周年，大模型从信仰scaling law重返探索新阶段 | 笔记

头条号入驻

AGI 曼哈顿计划，提出了 | 笔记

欧洲车企自救，向中国要技术 | 笔记

64项关键技术中国57项全球领先背后的真相 | 笔记

财经自媒体联盟更多自媒体作者

热文排行榜