人工智能撞上“功耗墙”，终极解决方案是什么？_

硅谷AI大佬已经开始为能源焦虑了。

4月底，OpenAI CEO奥尔特曼 (Sam Altman)出手投资了一家能源初创公司Exowatt，这家公司成立于2023年，旨在用太阳能解决大型数据中心对清洁能源的需求问题。

这并非奥尔特曼第一次投资能源公司，此前他也押注了从事可控核聚变的 Helion Energy 以及核裂变发电公司Oklo。作为目前全球最强大模型企业的掌舵者，奥尔特曼在年初的达沃斯会议上称，AI行业正面临能源危机，其消耗的电力将远远超出人们的预期。“AI技术的发展速度前所未见，到了明年人类就没有足够的电力来运行所有的芯片了。”这是特斯拉CEO马斯克在2月底给出的警告。

对AI行业来说，从外部获取更多能源是一方面，从内部降低能源消耗同样是热门议题。从芯片侧、软件生态到存储、应用侧，AI生态内企业已经意识到并开始在降低能耗方面作出努力。

能耗考验大模型

“AI电力需求将迅猛增长。”摩根士丹利在3月发布的一份AI报告中，预计2023-2027年全球数据中心电力需求为430太瓦时-748太瓦时，相当于2024/2027年全球电力需求的2%-4%。但电力基础设施可能跟不上这一增长形势。

为了解决能源消耗问题，不少人工智能基础设施公司已经在探索从基础技术层面去突破。

清程极智是聚焦软件系统这一层的清华系创业企业，成立于2023年12月，就在3月底这家企业完成了首轮数千万元融资，投资方包括AI大模型独角兽公司“智谱 AI”。

对于AI的能耗问题，清程极智相关负责人Eric对第一财经表示，在芯片方面，更先进的芯片工艺，不论是提高制程的3纳米或是采用chiplet的方式，都可以满足提升算力性能的同时降低功耗。

与芯片相关联的是系统层面，如何更好地做编译优化，将单块芯片的效率提高，并进一步将几千张、几万张芯片连接在一起，将并行框架做好，提高整体效率，这对于大模型训练场景来说非常重要。

从应用侧来看，大模型耗电多是因为模型训练的数据量巨大、模型非常复杂以及用户向AI提出的请求量巨大。因此，Eric介绍，寻找更好的模型架构，在算法层面优化模型的设计，使其更加精简，并适当降低精度，这都可以降低功耗。

已经有不少学者专家在反思目前大模型技术路线问题。

上海人工智能实验室主任助理、领军科学家乔宇此前在GDC大会上表示，沿着Scaling Law，对算力需求越来越多，大家会有一个问题：Scaling Law何处是尽头，跟现在相比，大模型至少还有1-2个数量级的提升。

“到2030年，是不是我们再提高两个数量级就有机会实现真正通用的人工智能，但是我们也要考虑另外一个问题，按照目前这条技术路线，它对算力、对能耗的消耗非常巨大。我们真的需要把这么大的社会资源都投入到这样的领域中来，还是需要现在（找到比）Scaling Law更加高效的方法，后者是这个时代研究者、开发者必须思考的问题。”乔宇说。

上海人工智能实验室领军科学家林达华表达了同样的想法，当前主流的大模型无一例外都建立在Transformer架构堆叠的基础上，但这种架构的问题是对计算资源的消耗特别大，反观人脑这样的“大模型”，有大约100万亿个神经连接，远远超过现有大模型体量，但人脑的运行功率只有20瓦。

实际上，过去一年，产业界和学术界在不断探索更加高效的架构，其中MoE（混合专家模型）受到了越来越多企业的关注。“但这仅仅是一个起点，未来还会有更加高效的稀疏模型结构出现。”林达华说。

在采访中林达华对第一财经表示，如果每一个用户的需求都用大模型千亿参数去响应的话，企业方的成本收益也会算不过来，这必然会倒逼企业在架构上做更多高效的尝试，将架构的计算成本降下去，随着验证逐渐成功，它们会慢慢进入产业界，从而带来模型架构新的黄金时期。

在Eric看来，除了以上几个层次之外，应用落地侧也有很大的变数。目前国内都在研究通用大模型，大规模的训练场景对算力要求较高，不过未来大模型跑出来后，或许模型的推理需求会更重要，这个时候“应用侧有多少是真的需要训练基础大模型”的问题就会出现。

Eric表示，未来大模型祛魅以后，或许业界会反思，并不是所有问题都需要用大模型解决，这或许会减少算力的不必要消耗。

芯片改良路线还能走多远

业界把降耗的希望寄托在芯片设计上。

“应用侧的丰富是必然的，就是时间问题，就算不是大模型的应用，也会有一些如机器人、自动驾驶这样场景下的算力需求，最后一层一层传导下来，最终都要看芯片。”Eric表示，往往更丰富、更高级的应用，最终都会传导至对算力的需求上面。

摩尔定律走向物理极限已成为不少半导体行业人士的共识，芯片行业通行数十年的算力提升方案越来越难实现。

作为最炙手可热的AI芯片厂商，英伟达向来是先进工艺的坚定支持者。但最新的芯片并未沿着晶体管密度翻倍的路径向下走。

当今年3月的GTC大会上，当英伟达CEO黄仁勋从口袋里掏出一块Blackwell架构芯片和一块上一代Hopper架构芯片时，他表示“我们需要更大的GPU”。明显可见的是，“更大”也是物理意义上的：由两块B200整合成的Blackwell架构GB200明显大于前一代的H100。即便是单颗B200，也比H100体积大了约一倍。

这颗B200采用台积电N4P工艺，相比两年前推出的H100 4N工艺（5nm）制程有所改良。B200集成2080亿个晶体管，是上一代H100的2.6倍，但考虑到体积也增大了，晶体管密度并未翻倍。

业界对英伟达芯片的创新力度和实际性能提升多有讨论。英伟达称GB200在大语言模型推理时比H100性能提升30倍，且减少四分之三能量消耗。黄仁勋举例，使用8000枚其第一代AI芯片训练聊天机器人ChatGPT三个月，将耗能15兆瓦，而使用新一代芯片在同样时长内执行同样任务，仅需2000枚芯片，能耗降低至4兆瓦。

但记者此前参加的一个行业论坛上，一名大模型算力厂商负责人分析称，B200以FP16浮点数计算，算力相比H100大概翻了2倍，功耗则是1.5倍，算下来能效比仅比H100增加约50%，不能只看官方宣称的“GB200性能提升30倍”。

“这件事告诉我们，大模型发展中我们既要看算力又要看成本。功耗最终对应电力，而电力对应成本。”该负责人称。记者了解到，也有业界人士认为，变“大”的英伟达GPU体现了制程进步放缓后的妥协，英伟达已在更多考虑制程之外的改良手段。

英伟达的最新芯片上“缝合”越多改良技术，越体现出芯片厂商对继续优化性能和功耗的渴望。

“芯片制程达到5纳米乃至更先进节点时，晶体管密度提升速度变慢了。”千芯科技董事长陈巍也告诉记者，除了先进制程，GB200还采取两种办法提升算力，一是用chiplet技术将两个裸片（小片晶圆）相连，实现更大等效芯片面积，二是将数据格式从FP8延伸至FP4，通过缩小数据格式获得更多乘法单元。

国内某头部高校研究计算机架构的教授林建华（化名）告诉记者，英伟达新GPU的改良技术既包括存储器HBM采取的3D堆叠技术，又包括chiplet（芯粒）技术。

林建华认为，各种改良办法业内基本都已在尝试了，“需要认识到的是，GPU发展了这么多年，每年都有更新优化，能优化得基本差不多了。在现有技术范围内，只能是有限程度的改进。”

陈巍也认为，英伟达最新一代GPU采取的改良路线，不一定能继续走下去。“FP4基本是大模型能跑的数据精度极限了，继续降低数据格式，Block Float（区块浮点）还能往下走一代，但再往下走两代以上概率非常低。”他告诉记者。

传统冯·诺依曼架构中，内存性能限制GPU性能、能耗增长限制芯片算力，被业内称为“内存墙”和“功耗墙”。

“传统计算机冯·诺依曼架构的存和算分开，计算时需要把数据从存的地方搬至算的地方，再搬回去，期间有功耗损失。高功耗问题由来已久。”林建华告诉记者，“基本可以肯定地说，新计算机架构的颠覆不会在两三年、三五年内出现，这将是一个长时间的探索。”

林建华表示，在GPU之外，对更优能耗和更高性能的探索方向包括光计算、量子计算、DNA计算等，其中，量子计算和光计算还处于萌芽阶段，展望未来需以10年、20年为单位去看。

什么是终极方案？

相比芯片侧需要更长期的探索，在软件系统方面业界则能更快落地。Eric对第一财经表示，国产部分芯片算力效率比较低，主要是软件方面的生态较差。

“本来国产某芯片的跑分可能和英伟达是对标的，但因为软件生态不太完整，很多基础的库不完善，用起来较费劲导致效率不高，所以能发挥出来的性能并不高，特别是在千卡万卡集群训练时尤为明显。”Eric举例表示，训练一个GPT-4，英伟达芯片组10000块卡训练6个月或许能做出来大模型，但用同样数量的、对标英伟达的国产芯片，可能需要更长时间，因为整体系统效率偏低。

训练时的算力利用尤为重要。方法之一是把能用的算力用得更好，如进一步压榨GPU等加速卡的性能；二是把系统的整体利用效率提升，将并行计算框架、调度系统、存储系统、容错系统等核心基础软件协同一起，这需要通过大规模异构系统软件来解决。

国内清程极智、无问芯穹等企业都做这样的尝试。蚂蚁集团这样的大厂也在很早之前建立了绿色计算部门。

蚂蚁集团云原生技术部总经理、绿色计算负责人黄挺对第一财经表示，现在业界公开的、相对较好的训练算力使用效率差不多在60%，40%算力没有被充分利用，通过软件方式提升硬件使用效率还有较大空间。

年初蚂蚁集团一次性宣布了不少这方面的成果，包括开源分布式训练加速扩展库ATorch，相当于一个可让大模型训练更高效的“工具包”，以及和上海交通大学合作发布的技术成果GMLake入选了国际顶会，这项技术将碎片化的显存灵活地拼接起来，可提高33%的GPU可用显存量。

黄挺介绍，当前制约高效训练的因素中，显存容量非常关键，由于GPU运行过程中需要依赖大量的显存，显存不足会导致运算核心闲置。

黄挺给了一个更容易理解的解释，一个GPU一般都会带一个自己的显存，“你可以把它想象成一个箱子，一般一台服务器会有多个GPU,整个集群里会有上万卡的GPU，你就可以看到有无数多的箱子放在里面，实际上很多箱子在使用中有一些空间是没有塞满的。在原来情况下，一个GPU只能使用自己的箱子，旁边的GPU很难去使用其他箱子里空出来的空间，但是通过‘池化’的技术，就可以把所有的箱子组成一个更大的箱子，尽量去填满缝隙。”

在此前的GDC大会上，蚂蚁集团技术专家DLRover负责人王勤龙提到，故障也是大规模训练很难避免的，这会导致GPU算力利用率低的问题。模型参数很大，训练规模一大故障率就高了，“比如一张卡一天的故障率是千分之一，1000张卡一天稳定跑成功概率不到40%。”这些都是软件层需要去解决的问题。

伴随大模型的出现，向量数据库（Vector database）频繁地出现在公众视野。这是一种新型存储方式，被看作 AI基础设施的关键一环，可以让大模型更高效率地存储和读取知识库，并且以更低的成本进行模型微调，对降低能耗也尤为重要。

AI创企Zilliz于 2019 年开源首个向量数据库产品 Milvus，其创始人 & CEO 星爵对第一财经表示，如果将大语言模型看作是新一代的大脑或者处理器，那么向量数据库就是新一代的存储，大模型负责运算，向量数据库负责数据的存储。

大模型企业争相做超长上下文，推理成本会随着文本窗口的长度线性增长，当文本的长度超过了1M的时候，会给计算带来非常大的压力，而这是向量数据库可以发挥作用的地方。

星爵介绍，用向量数据库理论上可以提供无限大的上下文，同时带来能耗的显著下降。这种方式伴随的缺点是，精确程度会有所欠缺。

更乐观一点的看法是，或许未来不必担心能源问题。星爵对第一财经表示，从降低能耗的路径来说，当下提到的一些方案可能都不是最优的。未来更大的希望是在可控核聚变这种技术上有更大的突破，然后理论上可以拥有无穷无尽的能源，能源也会变得很便宜。“我们现在觉得可控核聚变还有50年，但也许只需要15年。”