【睿见】胡延平:为什么DeepSeek-V3的火爆不宜过高评价?

【睿见】胡延平:为什么DeepSeek-V3的火爆不宜过高评价?
2025年01月02日 17:30 盘古智库

周末实测下来基本可以,数学正确率较高,代码是强项,考验模型的一些经典问题,回答正确与错误参半,还没遇到其他用户反馈的不稳定、思路循环紊乱问题。

本文系盘古智库学术委员、DCCI-未来智库与FutureLabs-未来实验室首席专家,信息社会50人论坛成员胡延平接受采访内容。文章来源于“胡延平EarthRambler”微博。

本文大约3000字,读完约7分钟。

周末实测下来基本可以,数学正确率较高,代码是强项,考验模型的一些经典问题,回答正确与错误参半,还没遇到其他用户反馈的不稳定、思路循环紊乱问题。也随手生成两个对其来说小儿科的python小游戏。但为什么说甚至已经被某些博主又上升到厉害了我的国的这款模型,不宜过高评价?7点探讨:

 1.效率方法淋漓尽致,没有底层原理创新。合成数据、知识蒸馏、FP8低精度、稀疏模型、MoE甚至包括多头注意力机制都是已有已知技术,但其清晰把握所有“已知”并且最大程度压缩算力边界,并且非常精巧地把不同已知原理组合起来,在资源和性能之间调优,取得最佳平衡,这是DeepSeek-V3的成功之处。实质上又一次呈现了“非常中国”的“工程”能力。

2.大模型现在是两条曲线交织的双螺旋进化。向上走的曲线,追求整理感知理解行为能力的通用智能,拼整体理解意义上的脑能力,思考和监督思考,视觉在内的整体理解,空间智能等现实模型,物理等科学模型,多模态更不在话下。思维链、皮层计算、不同模型原理探索是当下前沿探索的核心。向下走的曲线,提升数据质量,训练意义上的量效比,算力能效比,大幅降低推理成本。DeepSeek在这个双螺旋里向下有余向上不足。

3.LLM是基础,但要从LLM里走出来。非LLM实质上也需要结合LLM的能力才能与人交互,但LLM是大模型的古典时代,就像token只是所有表征里的其中一种表征(但说Token已死也是故做惊人之语,LCM复杂连续的概念向量的确是对Token的高维消解但重新定义的token以及转向patch的非token仍有“元”价值,不过说Token已死至少看到了趋势,还是比国内某企业前不久把“预测下一个Token”这种老掉牙的思维拿出来当传播主题强),Transformer是基础架构但不是架构的全部,更不是终极形态。在第2第3点所述角度,DeepSeek没有展现分毫对未来的思考和探索。实质上依然处在追赶阶段。DeepSeek不仅处于古典LLM范畴,呈现的其实再一次以及又一次是“我们一直最擅长的”性价比。

4.从训练到推理,量大管够、丰俭由人但限量消费,是其产品逻辑,也是DeepSeek-V3呈现较高费效比的关键(局部不稳定因此也是必然)。14.8T高质量token打底,基本水准差不了,671B的MoE把参数拉到顶,实际使用过程中每token灵活调用256个专家里的8个左右专家模型,37B的激活参数相当节约推理算力资源。价格又打得很低,但多模态等通通没有,妥妥的大户型经济适用房即视感。团队核心人员称“我们确实押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身”。从这一点看,接下来一段时间其基本盘还是在古典LLM范畴。

5.一直在品DeepSeek-V3像什么味道,忽然想到,竟然像极了小米SU7让车评人陈震撇嘴以至于被米粉攻陷评论区的那些原因:神似某捷的外型、单层的玻璃、民用级刹车卡钳、大概其的隔音......虽然一上赛道跑几圈刹车就严重衰减,虽然里里外外都是蔚小理玩过的东西,没有技术和形态突破,但这东西它就是短平快造出来了总体性价比还可以而且很有流量而且竟然有原厂手机支架这你受得了吗?

6.DeepSeek-V3能不能持续有流量不太好说,幻方也没有小米的生态和流量能力,这领域格局变得快,一夜颠覆的情况太多了。不过据说更扎实的新版本在路上了,几个月后亮相,相当于SU7的Ultra版。V3只是训练出来觉得还可以,就和盘托出来了。希望那个时候,能称得上是全面创新,目前真不是。

7.由此颠覆了模型与算力关系更说不上。接下来大家会越来越清楚地看到,这个领域有捷径但没有弯道超车,有后发成本优势但没有后发领先优势,AGI路线更是只能取巧没有投机。比如即使L3+级别的智能驾驶,端到端向VLA进化,车辆SoC算力1000TOPS起才勉强可玩,2000-3000TOPS会稀松平常,即使如此,短期内也未必能够到真正的L4。向上曲线的模型思考长度速度整体度、多模态、感知思考与行为能力合一等方向,只可能将算力需求拉升到新高度。向下曲线对成本效率有改变,但对捧得AGI圣杯的贡献可以忽略。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部