百度CTO王海峰：文心大模型训练效率提升到5.1倍推理105倍_

4月16日消息，在Create 2024百度AI开发者大会上，百度首席技术官王海峰解读了智能体、代码、多模型等多项文心大模型的关键技术和最新进展。

智能体是在基础模型上，进一步进行思考增强训练，包括思考过程的有监督精调、行为决策的偏好学习、结果反思的增强学习，进而得到思考模型。王海峰表示，智能体是重要的发展方向，会带来更多的应用爆发。

从万亿级训练数据中，文心大模型既学到了自然语言的能力，也学到了代码能力。基于文心大模型的这两种能力，百度开发了代码智能体和智能代码助手。

代码智能体是在“用模型写代码让复杂的任务变简单”，思考模型加上代码解释器，构成了代码智能体。首先，思考模型理解用户需求，经过思考，把完成任务的指令和相关信息整合成提示，输入给代码解释器；然后，代码解释器根据提示，把自然语言表达的用户需求翻译成代码并执行，得到执行结果或者调试信息；接着，思考模型对代码解释器的执行结果进行反思确认，如果正确，就把结果返回给用户，不正确就继续进行自主迭代更新。

智能代码助手Comate则是把代码理解、生成、优化等能力无缝集成到研发流程的各个环节，就像助理一样，帮助提升代码开发质量和效率。目前Comate整体采纳率达到了46%，新增代码中生成的比例已经达到了27%。

王海峰现场还分享了多模型技术。

高效低成本模型生产方面，百度研制了大小模型协同的训练机制，可以有效进行知识继承，高效生产高质量小模型，也可以利用小模型实现对比增强，帮助大模型的训练。同时，建设了种子模型矩阵，数据提质与增强机制，以及从预训练、精调对齐、模型压缩到推理部署的配套工具链。

多模型推理方面，百度研制了基于反馈学习的端到端多模型推理技术，构建了智能路由模型，进行端到端反馈学习，充分发挥不同模型处理不同任务的能力，达到效果、效率和成本的最佳平衡。