站长之家用户 - 传媒 2024-06-11 15:12

十款大模型混战高考 讯飞星火综合成绩居首

随着今年高考的结束,一场比较罕见的“智能竞赛”也在幕后悄然展开。今年的高考战场上,一支非传统但引人注目的队伍——国产人工智能大模型,吸引了广泛关注。

近日,搜狐科技、量子位等十余家媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的全面评测,并公布了令人瞩目的成绩

国产AI大模型高考成绩单出炉:讯飞星火获得综合首先

首先进行的是高考作文的评测。在搜狐科技的评测中,三位资 深语文教师作为权 威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。

而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最 高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品——百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以49分的平均分高居首位。

国产AI大模型高考成绩单出炉:讯飞星火获得综合首先

给讯飞星火打出“全场最 高分”56分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”

接下来是数学科目的较量。在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第 一梯队。

国产AI大模型高考成绩单出炉:讯飞星火获得综合首先

在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最多认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。

国产AI大模型高考成绩单出炉:讯飞星火获得综合首先

最后是高考物理的测试。在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第 一梯队。

文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。

国产AI大模型高考成绩单出炉:讯飞星火获得综合首先

综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第 一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。

综合成绩:

第 一名:52.49讯飞星火

第二名:46.08通义千问

第三名:37.67文心一言

第四名:34.68 Kimi

第五名:33.57字节豆包

第六名:31.92海螺AI

第七名:30.61腾讯元宝

第八名:30.28智谱清言

第九名:21.56百川百小应

相关话题

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,相关信息仅供参考。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

推荐关键词

24小时热搜

查看更多内容

大家正在看