学而思领跑数学大模型竞赛，九章大模型荣登榜首_

随着大模型技术在数学应用领域的不断深入,其应用场景已经拓展至数学问题解决、数据分析、学术研究及学习辅导等多个层面。目前,无论是通用型还是垂直领域的大模型,均展现出一定的数学能力,但对其能力的精准评估却仍很缺乏。近期,MathEval以数学能力为核心,对30个国内外大模型进行了全面测评。其中,学而思九章、百度文心一言 4.0、讯飞星火 V3.5 三大模型脱颖而出,荣登前三甲。特别值得一提的是,学而思旗下的九章大模型在整体表现及中文、英文、各学段子榜单中均表现卓越,领先优势明显。

在当前的大模型能力评估中,尽管有针对通用能力、推理能力及自然科学能力的评估,但数学能力评估却存在明显的空白。为填补这一空白,MathEval应运而生,旨在提供一个全面、权威的数学能力评估体系,确保大模型的数学能力得到准确评估,为其在数学领域的更广泛应用奠定坚实基础。

MathEval由智慧教育国家新一代人工智能开放创新平台携手暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学等高校共同打造。该平台专注于大模型数学能力的全面测评,从算术到小初高竞赛,再到部分高等数学分支等领域,均进行了深入评估。截至目前,MathEval已纳入19个广泛应用的数学能力测评数据集,这些数据集来源广泛,涵盖了不同年级、题型、文本形式和难度的数学问题,为提供全面、准确的数学能力测评结果提供了有力支撑。