会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 智源发布多模态模型中文评测基准CMMU!

智源发布多模态模型中文评测基准CMMU

时间:2024-07-04 05:10:22 来源:带水拖泥网 作者:电商 阅读:257次

智源发布多模态模型中文评测基准CMMU

CSS站长资源(ChinaZ.com) 2月1日 消息:智源研究院发布了中文多模态模型评测基准 CMMU(Chinese Multimodal Model Understanding and Reasoning Benchmark),智源准旨在为中文多模态模型领域提供一个全面、发布中立的多模评测基准。

该评测基准目前发布了 CMMU v0.1版本,态模其中包含了3603道题目,型中涵盖了小学、文评初中和高中的测基数学、物理、智源准化学、发布生物、多模政治、态模地理和历史等七门学科。型中其中,文评250道题目为小学题目,测基1697道为初中题目,智源准1656道为高中题目。

CMMU 评测基准的难度分为 “普通” 和 “困难”,比例大致为8:2。对于填空题,基于实际情况,有639道题被拆分成了1632个子问题。

通过对多个闭源模型和开源模型进行评测,CMMU 基准得出的结果显示,目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看,模型在政治和历史等偏向于知识记忆的学科上表现较好,但在数学和物理等需要推理能力的学科上表现不佳。

CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式,以避免模型通过随机猜测或 position bias(位置偏差)而达到正确答案。同时,通过对模型选择每个选项的概率分布进行分析,量化 position bias 的程度,进一步评估模型的表现。

CMMU 评测基准将验证集完全公开,方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台,用户可以自行申请评测。此外,智源研究院将持续邀请教师改编或新编学科考题,扩充 CMMU 评测集,以保证评测结果客观、公正,并探索基于判别模型的评测方式,以适应多模态模型的发展需要。

项目地址:https://github.com/FlagOpen/CMMU

(责任编辑:资讯)

相关内容
  • 传闻“2亿年终奖是G3手机” 格力官方发声:手机是额外免费送的
  • 干翻所有语音助手!OpenAI全能模型GPT-4o发布 丝滑交互如真人
  • 马斯克逆转裁员决定!特斯拉已重新聘请超充团队被裁员工
  • Anthropic 进军欧洲并筹集更多资金
  • 女子直播被指虐猫后直接放嘴里咬 网友愤慨:行为不人道
  • 马斯克批评OpenAI的GPT-4o演示 “令人尴尬”
  • 三年销售目标2000亿!小米京东全新战略合作内容揭晓
  • 穿汉服游古城 董明珠现身洛阳格力基地 王自如陪同左右
推荐内容
  • 高速惊现老头乐不到50迈一路压车 车主回应引众怒:网友吵翻为何不重罚只教育
  • 马斯克批评OpenAI的GPT-4o演示 “令人尴尬”
  • AI风投基金OpenAI Startup Fund额外筹集500万美元资金
  • 宜家成了年轻人的穷鬼食堂 消费者更倾向于逛逛吃吃
  • 6岁女孩在爸爸公司年会上自信跳舞 网友:表情管理天赋异禀
  • 问界M9累计大定破8万台!余承东:21英寸轮毂、静音轮胎可限时改配