Token、算力、芯片……一场AI变局正在发生

Token、算力、芯片……一场AI变局正在发生
2026年03月22日 07:50 袁国庆

Token正在重塑一切!

2026年3月,美国圣何塞,GTC大会。

聚光灯下,黄仁勋举起一块刻着“Token之王”的奖牌。全场屏息!

这一刻,这位61岁的芯片狂人,完成了他职业生涯最重要的一次自我革命——他要把“GPU公司”这顶帽子,连同过去在AI产业建立起来的“算力军备竞赛”逻辑,一起扔进垃圾桶。

英伟达是加速计算公司,不是GPU公司。”他的声音穿过整个会场,“Token才是AI的硬通货,电力才是真正的瓶颈。”

这句话在GTC大会期间,被全球科技媒体反复引用。但很少有人真正读懂它背后的变化——AI竞赛的底层规则,正在被改写

从“买算力”,到“用算力”

过去五年,AI行业的叙事逻辑极其简单粗暴:谁拥有更多GPU,谁就能赢得未来

在这个逻辑下,英伟达成为最大赢家。高端GPU长期供不应求,算力被当作“入场券”,甚至是“护城河”。

但这个逻辑在2025年出现了裂缝。

问题不在于算力不重要,而在于——算力的“稀缺性结构”变了。

换句话说:真正稀缺的,不再是GPU数量,而是“每一度电能产出多少Token”。

这也是为什么,NVIDIA开始系统性转向——

从卖芯片,转向提供一整套“效率系统”

芯片(GPU)

网络(高速互联)

内存架构

推理框架

软件生态

它不再只是卖“武器”,而是在提供一整套“作战体系”。算力,正在从资源,变成能力

Token,才是硬通货

什么是Token?

它是大模型处理信息的最小单位。用户和AI之间的每一次交互,本质上都在消耗Token。

什么是Token工厂?

就是AI工厂,其实质是把数据中心重新定义成智能产线:输入是电力、数据、模型和调度系统,输出则是AI智能体的执行能力和行业场景中的实际生产率。

如果说过去衡量AI能力看的是参数规模,那么现在,越来越多公司开始关注一个更现实的问题:

每一美元,能买来多少Token?

在算力稀缺时代,token成本高得离谱。2023年,GPT-4每千token成本约0.03美元。

后来,以DeepSeek-R1为代表的新一代模型,将输入token成本降到了每百万不到1美元——下降了两个数量级。

这就是“Token才是硬通货”的真正含义:当算力不再是瓶颈,谁能用更低的成本生产出更高质量的token,谁就是赢家。

目前,AI产业正在经历从“训练时代”“推理时代”的跨越。

训练需要暴力计算——堆GPU、拼规模。推理需要精打细算——每瓦特产出多少token?

于是,一个新的衡量体系出现了:

如果工业时代看电力,互联网时代看流量,

那么AI时代,看的是——Token产出总量

Token,不只是成本单位,更可能成为一种“宏观计量单位”。

国产提速,算力向自主可控演进

大洋这边,一场同样剧烈的革命正在发生。

过去两年,中国AI行业的最大困境是芯片割裂。华为昇腾、沐曦GPU、壁仞NPU……每家都有亮点,但开发者要在四五种芯片之间来回切换,效率损耗非常高。

上海AI实验室发布的DeepLink混合推理方案,正在尝试解决这个问题。它让每种芯片做自己最擅长的事,实现了真正的“异构协同”。

官方数据显示,DeepLink能将推理时延TTFT最大可优化34.5%,吞吐能力提升32%。

这背后的意义,不只是性能提升,而是中国AI第一次具备了在多元算力体系上,稳定运行大模型的能力。算力自主可控,正在快速到来。

与此同时,阿里巴巴CEO吴泳铭在财报会上称:五年内阿里云+AI商业化年收入要从约1000亿冲到1000亿美元,复合年化增长47%。

阿里打法是用开源模型降低门槛(通义千问)、用云承接计算需求、用应用场景放大使用规模(夸克、钉钉等)。

形成一个闭环:开源 → 使用 → 云收入 → 反哺模型

如果用一句话总结中美差异:美国在定义AI的“上限”,中国在决定AI的“下限”。一个让AI更强,一个让AI更可用

新一轮AI竞赛,刚刚开始

2026年的AI产业,正在经历一场深刻的范式转移。

旧范式:算力为王,GPU即霸权;谁拥有更多,谁就领先。

新范式:效率为王,Token即货币;谁用得更好,谁才领先。

当黄仁勋在GTC大会上反复强调“Token”和“效率”,他其实不是在重新定义英伟达。他是在重新定义——这场游戏,究竟如何才能赢

过去,中国公司在追赶算力。接下来,所有公司都要重新回答同一个问题:在同样的算力下,你能多快、多便宜、多稳定地,生产出Token?

现在,新一轮的竞赛,已经拉开帷幕。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部