ChatGPT发布将满两周年,预训练阶段的扩展定律(scaling law) 不够用了,算力电力瓶颈也让“暴力美学”的路越走越窄。AI与大模型迫切需要一种新范式。
现有前沿大模型在新基准下现出原形。Epoch AI联合60多位顶尖数学家提出了数学基准FrontierMath,给那些习惯刷题到烂熟的大模型一点挑战。结果,包括Gemini 1.5 Pro、Claude 3.5 Sonnet,以及GPT-4o与o1-preview在内的最强大的大模型,都没能答对超过2%的题目。面对未经“污染”的题库,它们没能证明具备了高级推理能力,需要更前沿的模型的突破。
但也许GPT-5指望不上。它确实休克了。周一,OpenAI代号Orion的下一代旗舰模型,被爆相对GPT-4的提升幅度,要小于GPT-4相对GPT-3;它的代码能力甚至不如旧模型,成本却更高。很多人相信Orion就是GPT-5。被奥特曼暗示是“平庸的深度学习怀疑论者”的Gary Marcus,迅速转发了这条消息,戏称“炼金术曾经很成功,但后来被化学取代了”,并希望从现在开始,业界能取得真正的进展。
扩展定律仍然有效,但边际收益正在递减,终有一天,单纯通过传统扩展来开发前沿模型在经济上将变得不可行。这与未尽研究昨日在2024科学智能创新论坛上对话业界与学界嘉宾得到的观点相似。其中一个重要的原因,就在于目前,大模型已经撞到了一堵“数据墙”。人类社会的高质量数据,目前无法同步高速“扩展”。
南京大学人工智能学院教授俞扬认为,“扩展”对量化指标的描述似是而非,谈不上公式精确的“定律”;目前完全依靠合成数据还无法有效提升大模型能力,而诞生于物理世界交互的高质量数据的产能,又跟不上如今大模型“扩展”的需求。
这也是为什么今年以来OpenAI匀出部分精力研发慢思考模型,以及变身为一家SaaS公司,将“快思考”模型产品化。OpenAI自称o1“更接近AGI”,负责推理研究的Noam Brown则将其视为“新的扩展范式”。经典“扩展定律”专注于用更长的“训练时”,获取更好的输出结果;o1则开始在推理上,也就是“测试时计算”(TTC,Test Time Computing)上追加更多时间,在回答问题之前,通过思维链(CoTs)进行“思考”。
上海科学智能研究院AI科学家肖仰华将GPT类比为大模型获得了“知性”,将多模态交互的4o类比为“感性”能力,将开始“长考”的o1视为“理性”。人类的思维模式无外乎这三种,这也意味着大模型在大方向上的创新,已经进入了平台期,未来,杰出工程师或将退居二线,顶尖科学家要逐步登场。
对“测试时”的研究与探索正在深化。8月,谷歌Deepmind的论文根据给定的提示难度,动态地分配测试时计算资源,发现这比单纯扩展模型参数更经济有效。论文涉及了两种具体的“测试时计算”方式,包括分布验证(PRM)与自我修订(Revisions),前者指通过逐步对每个解答步骤评分来筛选最优解,后者指生成初始答案后在每轮迭代中不断修正优化。结果,采用了测试时计算的PaLM 2-S,击败了一个14倍大的预训练大模型。
11月,研究推进到了“测试时训练”(TTT,Test-TimeTraining)层面。MIT的研究者们发现,采用了这一方法的大模型的准确率惊人,与基础微调模型相比,在ARC(抽象推理语料库)任务上的能力提高了6倍。与TTC相比,TTT同样发生在“测试时”阶段,也就是“推理”的阶段,但更注重直接对模型参数的动态适应,相当于“现学现用”,允许模型在看到新的测试数据时,快速地进行额外的学习,临阵“训练”,临时“微调”。
OpenAI已经不是街上最靓的仔。最早倡导在预训练阶段通过更大数据与更高算力来实现AI进化的Ilya,在离开OpenAI,创办SSI后,也开始研究“传统扩展”的替代方法。“2010年代是扩展定律的时代,现在我们又回到了奇迹和发现的时代。每个人都在寻找下一个东西。”在他看来,“现在,在正确的方向扩展,比什么都重要。”但他没有透露自己的具体方向。
如何将“慢思考”与“快思考”融合起来也是一个方向。它不一定就是一个单一的大模型。之江实验室数据枢纽与安全研究中心副主任陈红阳类比称,人类的大脑在工作时也分成不同区域来协同工作。肖仰华认为未来更重要的是两套系统的双向流动,包括将“慢思考”沉淀下来的知识用于快速决策,将“肌肉记忆”式的“快思考”作为经验传承下去。
一旦预训练大模型在扩展上难以为继,算力基础设施市场的竞争格局也将开始重塑。英伟达几乎独占了预训练大模型的芯片市场,已经开始将o1带来的“第二扩展定律”,写入自己最新的宣传册。但推理注定是一个更异构更分布式的世界,AI巨头正在纷纷打造自己的推理芯片,初创企业也云集在这个仍未定型的市场。告别堆叠大算力芯片的“暴力美学”阶段,对于中国的AI企业与芯片供应链也是一个难得的机会。
大模型正在从对scaling law的信仰时代,重返多元创新的早期探索阶段,2025年,很多企业将处于新的起跑线上。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有