DeepSeek官宣V3小版本升级强在哪,被赞“开源里程碑”

DeepSeek官宣V3小版本升级强在哪,被赞“开源里程碑”
2025年03月25日 23:07 第一财经网

没有任何公告和宣发,DeepSeek在开源平台hugging face默默上新的V3迭代版本模型仍在今日引起了不小的关注。

3月25日晚,官方终于在海内外官方账号上正式宣布V3模型完成小版本升级的消息,并介绍了新版本DeepSeek-V3-0324模型的提升细节,包括推理、前端开发、中文写作、中文搜索几个方面的能力优化。

值得一提的是,25日下午,海外专业AI模型评测机构Artificial Analysis发布的最新排名显示,新版V3模型现在是得分最高的非推理模型,超过xAI的Grok3和OpenAI的GPT-4.5(preview)。

“这是开放权重模型首次成为领先的非推理模型,对于开源来说是一个里程碑。”Artificial Analysis官方表示,此版本可以说比DeepSeek的R1模型更令人印象深刻,并且可能预示着R2模型将是另一个重大飞跃。

此次发布的新版V3模型采用MIT许可(允许模型蒸馏、商用),意味着其可以被自由用于商业用途。

根据官方展示的对比图,在数学、代码类相关评测集上新版V3模型分数排在第一,超过了GPT-4.5、Claude-Sonnet-3.7以及阿里云的Qwen-Max,但在百科知识上新模型稍弱于GPT-4.5。

DeepSeek介绍,新版V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平。

此外,在 HTML等代码前端任务上,新版V3模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。官方例举了一个用模型生成的程序,画面是多个小球在指定空间范围内运动,包含若干可以调整重力、摩擦力等参数的滑动按钮。

在中文写作和搜索任务方面,新版V3模型提升了中长篇文本创作的内容质量,并且可以在联网搜索场景下,对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。

官方还表示,新版V3模型在工具调用、角色扮演、问答闲聊等方面也有一定幅度的能力提升。

对于新模型,DeepSeek介绍,用户登录官方网页、APP、小程序进入对话界面后,关闭深度思考即可体验。API 接口和使用方式保持不变。如非复杂推理任务,官方建议使用新版本V3模型,可以有速度更流畅、效果提升的对话体验。

根据Artificial Analysis的评测,V3新模型在智能指数方面跃升了7个百分点,目前领先于所有其他非推理模型。尽管它在智能指数方面落后于DeepSeek自己的推理模型R1,以及来自 OpenAI、Anthropic和阿里的其他推理模型,但其成就仍然令人印象深刻。因为非推理模型可以立即做出回答,而无需花时间“思考”,这使得这一模型在对延迟较为敏感的场景中非常有用。

在V3新模型发布后,有开发者立刻用其进行了写代码实测,并认为新模型超越 了DeepSeek-R1,甚至超越 Claude-3.7,“难以想象这还不是一个推理模型。”这位开发者表示,在20个小球碰撞测试中,V3新模型有肉眼可见的进步,之前DeepSeek-V3的小球挤成一团,现在物理运动模拟得非常好。

也有海外开发者用DeepSeek新模型一次性创建了网站,编写了800多行代码,且没有出现任何故障。“很高兴看到这些开源模型如何向大型科技公司施加压力,以更低的成本构建更好的模型。”他在X上分享表示。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部