智源发布多模态模型中文评测基准CMMU
CSS站长资源(ChinaZ.com) 2月1日 消息:智源研究院发布了中文多模态模型评测基准 CMMU(Chinese Multimodal Model Understanding and Reasoning Benchmark),智源准旨在为中文多模态模型领域提供一个全面、发布中立的多模评测基准。
该评测基准目前发布了 CMMU v0.1版本,态模其中包含了3603道题目,型中涵盖了小学、文评初中和高中的测基数学、物理、智源准化学、发布生物、多模政治、态模地理和历史等七门学科。型中其中,文评250道题目为小学题目,测基1697道为初中题目,智源准1656道为高中题目。
CMMU 评测基准的难度分为 “普通” 和 “困难”,比例大致为8:2。对于填空题,基于实际情况,有639道题被拆分成了1632个子问题。
通过对多个闭源模型和开源模型进行评测,CMMU 基准得出的结果显示,目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看,模型在政治和历史等偏向于知识记忆的学科上表现较好,但在数学和物理等需要推理能力的学科上表现不佳。
CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式,以避免模型通过随机猜测或 position bias(位置偏差)而达到正确答案。同时,通过对模型选择每个选项的概率分布进行分析,量化 position bias 的程度,进一步评估模型的表现。
CMMU 评测基准将验证集完全公开,方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台,用户可以自行申请评测。此外,智源研究院将持续邀请教师改编或新编学科考题,扩充 CMMU 评测集,以保证评测结果客观、公正,并探索基于判别模型的评测方式,以适应多模态模型的发展需要。
项目地址:https://github.com/FlagOpen/CMMU
(责任编辑:资讯)
- ·小米召开年度质量奖表彰大会:Redmi产品质量提升专项获得集团二等奖
- ·育碧第三季度营收6.2亿欧元:《刺客信条》新作将于明年3月前发售
- ·FCC宣布人工智能生成的声音将禁止在机器人电话中使用
- ·《难忘今宵》有了新版本 网友:回忆满满
- ·曾与摩托罗拉齐名的诺基亚手机品牌画上了句号!
- ·苹果巨屏Air平板来了!新iPad Air工业设计出炉
- ·三星Galaxy A35和Galaxy A55高清渲染图曝光
- ·春晚四美上热搜:关晓彤、李沁、刘诗诗、刘涛惊艳亮相
- ·AI智能短视频批量剪辑软件下载地址 AIMIX智剪字幕制作配音合成工具体验入口
- ·Epic开启春节特卖!《赛博朋克2077》等超2000款游戏打折
- ·三星S24 Ultra屏幕得分155分:超越iPhone 15 Pro Max
- ·隔空拍照、AI飙戏,年轻人在五福找到过年新风格
- ·2024大年初一预售票房破4亿:两部电影已经破亿
- ·OPPO正式进入AI手机时代!与千万用户共同开启AI手机元年
- ·工人从长江大桥桥顶释放铁环除冰 确保桥面通行安全顺畅
- ·今天除夕!小米汽车SU7发布2024年日历壁纸:高清无水印
- ·先睹为快:中央广播电视总台春晚节目单来了!
- ·前苹果华人工程师因窃取汽车机密入狱:监禁120天、罚款百万
- ·Informatica调查:全球企业优先考虑生成式 AI
- ·育碧第三季度营收6.2亿欧元:《刺客信条》新作将于明年3月前发售