灵智“lingzhi-72B”大模型拿下SOTA!

灵智“lingzhi-72B”大模型拿下SOTA!
2024年08月29日 09:59 憨猴OS

近日,憨猴科技集团有限公司旗下子公司——北京灵智之光人工智能技术有限公司(以下简称:灵智AI)的大语言模型Lingzhi-72B-chat在中文能力评测CMMLU拿下SOTA。CMMLU在官方项目更新了大语言模型评测排名,灵智“lingzhi-72B-chat能力评测结果,成功拿下榜首,并且在综合成绩上超越OpenAI的GPT4、Meta AI的Llama3.1-70B-Instruct等大模型。

原文链接

https://github.com/haonan-li/CMMLU

CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。

在CMMLU测评中,zero shot和five shot是两种不同的测试方式,测评中代表了不同的测试难度和场景,分别用于评估模型在不同条件下的知识和推理能力。

Zero-shot测评下的表现

我们对零样本的设置进行了实验。在模型测试阶段没有接触过与具体任务相关的任何训练数据,评估模型在真实世界中的适应性和灵活性。

表格1

表格1 显示了在 zero-shot 设置下一些模型的性能。可以看出:Lingzhi-72B在测评中处于较高水平;从学科类型的角度来看,Lingzhi-72B在人文学科、社会科学和其他学科中表现出更好的性能,与Qwen1.5-110B模型相比下,在参数数量较少的情况下,其性能甚至超过了Qwen1.5-110B;

从STEM的角度来看(指的是“科学(Science)、技术(Technology)、工程(Engineering)、数学(Mathematics)”这四个领域的集合)Lingzhi-72B也高于不同参数级别的模型,并且在STEM领域的得分是远高于其它模型的,STEM相关文本时的表现,进而评估其在这些专业领域的应用潜力。

Five-shot测评下的表现

在测评过程中,它的数据集包含 11,528 个问题,涵盖了 67 个学科。每个学科至少有 105 个问题,我们将其分为包含 5 个问题的训练样本集,从而评估模型在资源受限或数据稀缺场景下的性能。

表格2

表格 2 显示了在 five-shot 设置下一些模型的性能。可以看出:Lingzhi-72B是整体性能最佳的模型;在中国特定主题领域方面,Lingzhi-72B评分高于Qwen2-72B,高评分意味着大模型在理解和处理这些具有中国特色的内容方面表现出色。

Lingzhi-72B-chat大型模型的卓越性能

在公布的CMMLU基准测试成绩中,Lingzhi-72B-chat凭借其卓越的性能脱颖而出,成功在5项关键指标中取得了显著优势。同时Lingzhi-72B-chat在性能上超越了业界著名的一些开源模型。

LINGZHI大模型的开源包括八种尺寸的基础和指令调优模型,包括

满足不同场景下的需求,进一步拓宽了其应用范围

LINGZHI系列在模型优化方面也做出了诸多努力。研究团队总结了多种训练范式,并针对不同模型大小采用了最佳的训练策略,确保模型在垂类领域任务中达到最优性能。

在指令微调方面,LINGZHI系列模型在长序列理解实验中表现出色,如Lingzhi-72B模型支持长达192K tokens的上下文长度。这一特性使得模型在需要处理复杂、长文本任务的垂类领域中具有明显优势。

并且通过特有的“持续学习”的方法,在一定程度上,将解决“灾难性遗忘(catastrophic forgetting)”问题落到了实际的大模型生产中。用最低的成本完成垂直领域模型的更新边际学习成本大幅下降,提升同等能力需要的边际学习成本仅为零基训。

lingzhi-72B大模型在实际应用中,以高精度生成为核心优势,适用于多种场景:

如高级研究与决策:辅助专家进行深度文本分析,生成高质量内容,提升决策精准度。

影视创作:为编剧提供灵感,快速生成剧情与台词,加速影视作品制作。

复杂系统管理:处理海量数据,生成详尽报告,助力智能化管理与决策。

我们深知,技术的领先只是起点,真正的挑战在于如何将AI技术深度融入各行各业。未来,灵智AI将以此为契机,持续深化AI技术研发,拓宽应用场景,加速产品迭代,赋能更多行业数字化升级,共同探索AI技术的无限可能。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部