智源发布多模态模型中文评测基准CMMU

站长之家(ChinaZ.com) 2月1日消息:智源研究院发布了中文多模态模型评测基准 CMMU（Chinese Multimodal Model Understanding and Reasoning Benchmark），旨在为中文多模态模型领域提供一个全面、中立的评测基准。

该评测基准目前发布了 CMMU v0.1版本，其中包含了3603道题目，涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。其中，250道题目为小学题目，1697道为初中题目，1656道为高中题目。

CMMU 评测基准的难度分为 “普通” 和 “困难”，比例大致为8:2。对于填空题，基于实际情况，有639道题被拆分成了1632个子问题。

微信截图_20240201100018.png

通过对多个闭源模型和开源模型进行评测，CMMU 基准得出的结果显示，目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看，模型在政治和历史等偏向于知识记忆的学科上表现较好，但在数学和物理等需要推理能力的学科上表现不佳。

CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式，以避免模型通过随机猜测或 position bias（位置偏差）而达到正确答案。同时，通过对模型选择每个选项的概率分布进行分析，量化 position bias 的程度，进一步评估模型的表现。

CMMU 评测基准将验证集完全公开，方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台，用户可以自行申请评测。此外，智源研究院将持续邀请教师改编或新编学科考题，扩充 CMMU 评测集，以保证评测结果客观、公正，并探索基于判别模型的评测方式，以适应多模态模型的发展需要。

项目地址：https://github.com/FlagOpen/CMMU

德佑联动快手超品日破圈增长：5R人群资产提升150%，新客GMV贡献占比70%

2024-04-281.7万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

智源发布多模态模型中文评测基准CMMU

推荐关键词

24小时热搜

大家正在看

半年涨粉1000万，这个AI聊天搭子是怎么火的

2024微赞教培产品发布会：技术革新开启教育新篇章

技术铸就实力，葡萄城低代码技术荣获“软件行业突破性技术成果”

每日互动持续增强大模型能力，推出、升级多款大模型应用产品

以绝美风景疗愈心灵，快手星芒短剧《孤单旅行团》欢乐来袭

德佑联动快手超品日破圈增长：5R人群资产提升150%，新客GMV贡献占比70%

元象开源首个多模态大模型XVERSE-V 支持任意宽高比图像输入

摩尔线程亮相2024中关村论坛年会，以夸娥智算集群为美好世界加速

潮不停流，2024三里屯太古里摩登派对新生登场

健身房练臀腿的器械有哪些好用？Precor必确这款让你翘臀不粗腿

马斯克也要来北京车展么其私人飞机将落地北京首都机场

格力投入30亿启动家电以旧换新活动

豪华品牌开始发力！奔驰推出以旧换新限时政策：补贴至高1.5万元

OPPO最强标准版旗舰 OPPO Find X7白色版开售：3999元起

雷诺CEO北京车展会面雷军、李想：后续有望展开合作

李想赠送雷军一台L6 Max 李想时隔57天发微博

苹果高管：Mac是可以买到最好的AI电脑

群像种田剧，《惜花芷》走出“上扬曲线”的创作密码 | 专访鄢蓓

超擎数智重磅发布擎天、锋锐、元景系列AI服务器，打造人工智能新质生产力强劲引擎

阿里开源千亿参数模型 Qwen1.5-110B，性能超越 Meta-Llama3-70B

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

智源发布多模态模型中文评测基准CMMU

推荐关键词

24小时热搜

大家正在看

半年涨粉1000万，这个AI聊天搭子是怎么火的

2024微赞教培产品发布会：技术革新开启教育新篇章

技术铸就实力，葡萄城低代码技术荣获“软件行业突破性技术成果”

每日互动持续增强大模型能力，推出、升级多款大模型应用产品

以绝美风景疗愈心灵，快手星芒短剧《孤单旅行团》欢乐来袭

德佑联动快手超品日破圈增长：5R人群资产提升150%，新客GMV贡献占比70%

元象开源首个多模态大模型XVERSE-V 支持任意宽高比图像输入

摩尔线程亮相2024中关村论坛年会，以夸娥智算集群为美好世界加速

潮不停流，2024三里屯太古里摩登派对新生登场

健身房练臀腿的器械有哪些好用？Precor必确这款让你翘臀不粗腿

马斯克也要来北京车展么 其私人飞机将落地北京首都机场

格力投入30亿启动家电以旧换新活动

豪华品牌开始发力！奔驰推出以旧换新限时政策：补贴至高1.5万元

OPPO最强标准版旗舰 OPPO Find X7白色版开售：3999元起

雷诺CEO北京车展会面雷军、李想：后续有望展开合作

李想赠送雷军一台L6 Max 李想时隔57天发微博

苹果高管：Mac是可以买到最好的AI电脑

群像种田剧，《惜花芷》走出“上扬曲线”的创作密码 | 专访鄢蓓

超擎数智重磅发布擎天、锋锐、元景系列AI服务器，打造人工智能新质生产力强劲引擎

阿里开源千亿参数模型 Qwen1.5-110B，性能超越 Meta-Llama3-70B

马斯克也要来北京车展么其私人飞机将落地北京首都机场