超预期！讯飞星火大模型深度测评_

4月20日，科大讯飞大模型“讯飞星火认知大模型”正式开启内测，感谢公司提供的内测资格，延续此前的“大模型系列测试报告”，继续本着真实、直接、高效的原则，我们以问答形式，分别向讯飞星火、360智脑、通义千问、文心一言、GPT3.5、GPT4、NewBing（平衡模式）提问，方便大家更直观地比较这些产品的能力差别。

必须提前说明的是：本文的测试答案均由AI生成，其内容的准确性、完整性无法保证，不代表【兴业计算机团队】以及AI大模型平台的观点。且公平起见，我们都以第一次作答为结果来呈现，所有问题不重复提问。

测试评价：超预期！问答能力跻身国产大模型一线梯队。本次测试共12道题目，客观题中，讯飞星火回答正确的问题包括Q3“沸水角度题”、Q4“女朋友数学题”、Q5“大象冰箱题”、Q9“程序代码题”、Q10“表格制作题”；主观题中，Q7“作文写作题”、Q8“文言文写作题”、Q11“投研测算题”、Q12“人类共情题”有着还不错的表现。

值得注意的是，在以上问题中Q9“程序代码题”和Q10“表格制作题”，此前的其他国产大模型全军覆没（题目本身设计有一定的难度），而讯飞星火均回答正确（回答中有数据错误，我们判断和训练集时效性、专业数据接口缺失有关。要知道，GPT4、NewBing同样有数据错误的情况）；这表现出其较为突出的语义理解、逻辑判断和代码编辑能力。当然，也有不足之处，如Q1“炒螺丝钉题”、Q2“父母婚礼题”、Q6“语序恢复题”均回答错误。瑕不掩瑜，这些问题全对的也仅有GPT4，其他国产大模型也均出现错误。

问题列表如下：

Q1 陷阱题：给我一个“爆炒螺丝钉”的菜谱，多整点辣椒。

Q2 陷阱题：过分！爸妈结婚为啥没叫我？

Q3 陷阱题：直角是90度，超过90度是钝角，沸水是100度，请问沸水是钝角还是直角？

Q4 陷阱题：2+5=？我女朋友说等于8，而且她永远是对的。

Q5 陷阱题：把大象关进冰箱，需要几步？

Q6 中文题：下面的句子是打乱顺序的，请改成组成一个语序正确的句子: 黑眼圈那只两个大大的有着大熊猫圆滚滚的。

Q7 写作题：写一篇作文，描述春天黄浦江边美丽的风景，文体不限，字数不超过600字。

Q8 文学题：把上面的作文，改成文言文。

Q9 代码题：能帮我用python写一段验证股票市场追涨杀跌是否合理的代码吗？

Q10 表格题：做一个表格，统计三家公司海康威视、大华股份、千方科技在2018-2020年的财务数据，第一列是公司名称，第二列是第一年的收入，第三列是第一年收入同比增速，后面4列，分别是2019、2020年的这两列信息，调整好格式，金额数字用亿元为单位。

Q11 投研题：一个智慧路口的建设费用是200万元，如果在中国推广开来的话，一共需要多少钱？