AI首次参与判卷!九大顶尖大模型再战2024高考,谁能拿下最高分?

AI首次参与判卷!九大顶尖大模型再战2024高考,谁能拿下最高分?
2024年06月07日 16:51 大模型之家

6月7日,2024年高考正式开考,来自全国的莘莘学子们,迎来了人生中的一场重要考试。大模型之家首先在这里祝各位考生高考顺利,金榜题名!

在考试首日,高考语文的作文题目,一直是人们关注的重点。顺应大模型技术的热潮,在2024年新课标I卷(适用地区:山东、广东、湖南、湖北、河北、江苏、福建、浙江、江西、安徽、河南)的考试题中,人工智能也顺应形势成为了作文题的题面。

本次新课标I卷的作文题目为:

随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?

以上材料引发了你怎样的联想和思考?请写一篇文章。

要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

回顾2023年,大模型产品刚刚兴起之时,大模型之家就曾率先将市面上主流大模型进行过高考作文题的“PK”,彼时大模型产品的表现可谓相当“稚嫩”:字数不足、词不达意、理解错误等问题偶有发生。

如今一年过去,大模型之家再度汇集了市面上9大主流大模型产品,他们分别是:百度文心一言、阿里通义千问、智谱清言、商汤商量、360智脑、百川智能的百小应、讯飞星火、KIMI,以及ChatGPT(基于GPT-4o)。让我们看看大模型产品发展一年之后,是否成功从稚嫩走向成熟。

准备工作

为了让本次“作文阅卷”更有说服力,大模型之家特别在百度AgentBuilder平台创建了一个专业批改高考作文的智能体,智能体不仅能够根据输入的作文内容给出打分,同时会根据高考的判卷要求给予专业的点评。

所有大模型生成的作文都是由人工手动复制到智能体对话框,保证了判卷的公平性(即智能体并不知道文章的作者)

考试开始!

首先我们来看智能体给各家大模型写的高考作文的打分情况:

从分数来看,商汤科技的商量《问题与答案的共舞:互联网与人工智能时代的思考》与通义千问《问题与答案:智慧之光下的探索》在此次比拼中取得了最高分——58分的成绩。而百小应、GPT-4o、360智脑、文心一言3.5则以55分位列第二梯队。

但整体来看,大模型作文的成绩都很出色,分数都在52分以上,这个分数对于高考而言可以说是非常优秀了。而单纯一次考试的成绩虽然并不能完全概括模型的能力,但就如同高考那样,一次考试的成败,也许就是人生命运的转折。

这,也正是高考的魅力所在。

此外,大模型之家还发现了一年以来大模型产品能力上的进步:

第一回合:字数基本符合题目要求

在回顾去年大模型在测试高考作文题时的表现时,一个普遍且显著的问题浮现出来,即生成的作文在字数上往往“捉襟见肘”,难以达到题目要求的800字以上标准。

然而,值得欣喜的是,经过不断的优化与升级,2024年的大模型产品在字数控制方面取得了显著的进步,显著减少了此类问题的发生,几乎所有大模型的作文字数都能够超过800字。即使唯一一个没有达到字数要求的360智脑,也离800字的距离十分接近。(笔者想起了高考时空行凑字数的自己)

第二回合:大模型比喻都偏爱“海”

大模型之家在“阅卷”时发现,超过半数的大模型在构思时,不约而同地运用了与“水”或“海”相关的比喻,以此来描绘互联网的浩渺无垠。

从上至下:文心一言、商汤商量、360智脑、KIMI、百小应

与此同时,也有几家模型另辟蹊径,采用“信息爆炸”这一词汇,巧妙地表达了互联网所承载信息的丰富与繁多,进一步凸显了互联网的广阔与深邃。

从上至下:通义千问、智谱清言

第三回合:引经据典能力显著增强

在测试中,一些大模型也体现出了强大的引经据典的能力,比如:

通义千问引用了苏格拉底的名言

360智脑引用了爱因斯坦的名言

GPT-4o则引用了哲学家康德的名言

通过名言的引用,大幅提升了文章的可读性与说服力,也体现出大模型的知识水平在不断提升,相较于一年前早已今非昔比。

最后,让我们来看一下各家大模型所写的高考作文,以及“AI判卷老师”给出的打分与专业点评:

商汤商量《问题与答案的共舞:互联网与人工智能时代的思考》(58分)

通义千问《问题与答案:智慧之光下的探索》(58分)

百小应《智慧时代的提问艺术:在答案触手可及的世界中深化思考》(55分)

ChatGPT(GPT-4o)《问题的消失与诞生:科技进步与人类思维的无限可能》(55分)

360智脑《智能时代的问题之舞》(55分)

文心一言3.5《互联网的巨轮与知识的星辰大海》(55分)

KIMI《智慧的海洋:互联网与人工智能时代的思考》(54分)

智谱清言《互联网时代,问题真的会越来越少吗?》(54分)

讯飞星火《互联网与认知:问题更多还是答案更多?》(52分)

大模型之家看到,经过一年的精心雕琢,大模型产品不仅在行文结构上臻于规范,更在逻辑严密性上实现了显著提升,这显著的成绩不仅昭示着产品本身的巨大进步,更深刻映射出我国人工智能领域蓬勃发展的态势。

展望未来,随着大模型技术的深入探索与产业融合的日益加强,我们有理由相信,大模型将为各行各业创造更多不可估量的价值,推动产业的持续繁荣与发展。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部