AI高考测试数学全不及格首个AI高考全卷评测结果发布

太阳下微笑2024-06-20 62

导读：高考覆盖各类学科及题型，同时因其开考前的“绝密性”，被视作中国最具权威的考试之一。这一面向人类设计的高难度综合性测试，目前普遍被研究者用于考察大模型的智能水平。AI高考测试数学全不及格是怎么回事？首个AI高考全卷评测结果发布，一起去看具体详…

高考覆盖各类学科及题型，同时因其开考前的“绝密性”，被视作中国最具权威的考试之一。这一面向人类设计的高难度综合性测试，目前普遍被研究者用于考察大模型的智能水平。AI高考测试数学全不及格是怎么回事？首个AI高考全卷评测结果发布，一起去看具体详情。

AI高考测试数学全不及格

在前不久高考结束后，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日，OpenCompass发布了首个大模型高考全卷评测结果。

语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智能实验室的书生·浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型，以及来自OpenAI的闭源模型GPT-4o。实验室表示，因无法确定闭源模型的更新时间，为公平起见，此次评测没有纳入商用闭源模型，仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前（2024年4月-6月）开源，避免了“刷题风险”。

AI高考测试数学全不及格首个AI高考全卷评测结果发布

从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分，来自书生·浦语2.0，其次是GPT-4o，得分73分。语文最高分是通义千问，英语最高分是GPT-4o。

在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力，这是大模型普遍面临的难题，也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍，复杂推理关系到落地应用时大模型的可靠性，例如在金融这样的场景下不能在数字上有差错，会对数学上的可靠性有较高的要求。另外随着大模型进入商用，若要分析一家公司的财报，甚至是工业领域要去分析一些技术文档，这时数学方面的计算能力就会成为一个壁垒。

来源：第一财经

声明：本网尊重版权，若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与我们联系，我们将及时更正、删除，谢谢!

展开全文

为您推荐

性侵中国女游客的韩酒店员工已返岗韩国警方正在追加调查事件经过

巴黎奥运中国女排25人大名单巴黎奥运中国女排名单都有谁

本文地址: https://life0731.com/read-415088.html
免责声明：本文仅代表作者个人观点，与长沙生活网（本网）无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
本网站有部分内容均转载自其它媒体，转载目的在于传递更多信息，并不代表长沙生活网（本网）赞同其观点和对其真实性负责，若因作品内容、知识产权、版权和其他问题，请及时提供相关证明等材料并与我们联系，本网站将在规定时间内给予删除等相关处理.