会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 智源发布多模态模型中文评测基准CMMU!

智源发布多模态模型中文评测基准CMMU

时间:2024-06-30 00:30:47 来源:带水拖泥网 作者:知识 阅读:458次

智源发布多模态模型中文评测基准CMMU

CSS站长资源(ChinaZ.com) 2月1日 消息:智源研究院发布了中文多模态模型评测基准 CMMU(Chinese Multimodal Model Understanding and Reasoning Benchmark),智源准旨在为中文多模态模型领域提供一个全面、发布中立的多模评测基准。

该评测基准目前发布了 CMMU v0.1版本,态模其中包含了3603道题目,型中涵盖了小学、文评初中和高中的测基数学、物理、智源准化学、发布生物、多模政治、态模地理和历史等七门学科。型中其中,文评250道题目为小学题目,测基1697道为初中题目,智源准1656道为高中题目。

CMMU 评测基准的难度分为 “普通” 和 “困难”,比例大致为8:2。对于填空题,基于实际情况,有639道题被拆分成了1632个子问题。

通过对多个闭源模型和开源模型进行评测,CMMU 基准得出的结果显示,目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看,模型在政治和历史等偏向于知识记忆的学科上表现较好,但在数学和物理等需要推理能力的学科上表现不佳。

CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式,以避免模型通过随机猜测或 position bias(位置偏差)而达到正确答案。同时,通过对模型选择每个选项的概率分布进行分析,量化 position bias 的程度,进一步评估模型的表现。

CMMU 评测基准将验证集完全公开,方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台,用户可以自行申请评测。此外,智源研究院将持续邀请教师改编或新编学科考题,扩充 CMMU 评测集,以保证评测结果客观、公正,并探索基于判别模型的评测方式,以适应多模态模型的发展需要。

项目地址:https://github.com/FlagOpen/CMMU

(责任编辑:资讯)

相关内容
  • 比格PPT体验入口 AI智能PPT设计SaaS平台在线使用入口
  • 豆瓣8.3高分国产动画!央视CCTV6除夕首播《长安三万里》
  • steam春节特卖:R星部分3AD大作3折促销
  • 2024大年初一预售票房破4亿:两部电影已经破亿
  • 腾讯出行推出顺风车春节返乡互助功能:一键发布拼车信息
  • 央视春晚即将开场:花花是春晚最小的观众
  • 向Linux看齐!Win 11发布重磅更新:原生支持sudo命令
  • 中国三蹦子装倒车影像在海外更火了:出口一辆卖1.2万欧
推荐内容
  • 网红帮女生找到失散22年妈妈 网友助力母女终相认
  • 盘点00后的回乡“三件套”:带来一股别开生面的新气象
  • 2024总台春晚开播:范伟配音开场短片《我们的春晚》
  • 网友列算式解密刘谦魔术:依据数学原理
  • 花130万当网红未果起诉要回80万 法院:构成有偿委托合同关系
  • 跟兔年说再见!再想过大年三十就得等到2030年了