智源发布多模态模型中文评测基准CMMU-带水拖泥网

智源发布多模态模型中文评测基准CMMU

时间：2024-07-04 05:10:22 来源：带水拖泥网作者：电商阅读：257次

智源发布多模态模型中文评测基准CMMU

CSS站长资源(ChinaZ.com) 2月1日消息:智源研究院发布了中文多模态模型评测基准 CMMU（Chinese Multimodal Model Understanding and Reasoning Benchmark），智源准旨在为中文多模态模型领域提供一个全面、发布中立的多模评测基准。

该评测基准目前发布了 CMMU v0.1版本，态模其中包含了3603道题目，型中涵盖了小学、文评初中和高中的测基数学、物理、智源准化学、发布生物、多模政治、态模地理和历史等七门学科。型中其中，文评250道题目为小学题目，测基1697道为初中题目，智源准1656道为高中题目。

CMMU 评测基准的难度分为 “普通” 和 “困难”，比例大致为8:2。对于填空题，基于实际情况，有639道题被拆分成了1632个子问题。

通过对多个闭源模型和开源模型进行评测，CMMU 基准得出的结果显示，目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看，模型在政治和历史等偏向于知识记忆的学科上表现较好，但在数学和物理等需要推理能力的学科上表现不佳。

CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式，以避免模型通过随机猜测或 position bias（位置偏差）而达到正确答案。同时，通过对模型选择每个选项的概率分布进行分析，量化 position bias 的程度，进一步评估模型的表现。

CMMU 评测基准将验证集完全公开，方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台，用户可以自行申请评测。此外，智源研究院将持续邀请教师改编或新编学科考题，扩充 CMMU 评测集，以保证评测结果客观、公正，并探索基于判别模型的评测方式，以适应多模态模型的发展需要。

项目地址：https://github.com/FlagOpen/CMMU

(责任编辑：资讯)

[1]

[2]

[3]

上一篇：为什么高铁座椅没有E号上热搜网友：抓去当视力表了
下一篇：网友吐槽服务区充电桩比加油贵官方：从未改价已上报