会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 华科大发布多模态大模型新基准 覆盖五大任务!

华科大发布多模态大模型新基准 覆盖五大任务

时间:2024-06-30 00:04:25 来源:带水拖泥网 作者:自媒体 阅读:177次

华科大发布多模态大模型新基准 覆盖五大任务

要点:

华中科技大学等机构发布了多模态大模型新基准,华科对14个主流多模态大模型进行全面评估,大发大模大任覆盖五大任务、布多27个数据集。模态

研究团队深入研究了多模态大模型在OCR(光学字符识别)能力上的型新表现,提出了专门的基准评测基准OCRBench,揭示了在OCR领域中多模态大模型的覆盖局限性。

评估结果显示多模态大模型在一些任务上表现出色,华科如文本识别、大发大模大任文档问答,布多但在语义依赖、模态手写文本和多语言文本等方面存在挑战,型新需要进一步改进。基准

CSS站长资源(ChinaZ.com)2月2日 消息:近期,覆盖华中科技大学等机构发布了一项关于多模态大模型(LMMs)的华科全面评估新基准,旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型,包括谷歌Gemini、OpenAI GPT-4V等,覆盖了五大任务、27个数据集。然而,由于多模态大模型的回答具有开放性,评估各个方面的性能成为一个亟待解决的问题。

在这项研究中,特别强调了多模态大模型在光学字符识别(OCR)方面的能力。研究团队深入研究了多模态大模型的OCR性能,并为此构建了一个专门的评测基准,命名为OCRBench。通过对27个公有数据集和2个生成的无语义和对比的有语义的数据集上进行广泛实验,揭示了多模态大模型在OCR领域的局限性。论文详细介绍了评测模型的概述、指标以及使用的评测数据集。

项目地址:https://github.com/Yuliang-Liu/MultimodalOCR

评估结果显示,多模态大模型在一些任务上表现出色,如文本识别、文档问答等。然而,在语义依赖、手写文本和多语言文本等方面,这些模型存在一定的挑战。特别是在处理缺乏语义的字符组合时,性能较差。手写文本和多语言文本的识别也呈现出较大的挑战,可能与训练数据的不足有关。此外,高分辨率输入图像对于一些任务,如场景文本问答、文档问答和关键信息抽取,具有更好的表现。

为了解决这些限制,研究团队构建了OCRBench,以便更准确地评估多模态大模型的OCR能力。这一举措有望为多模态大模型的未来发展提供指导,并促使更多的改进和研究,以进一步提升其性能和应用领域的拓展。

在这个多模态大模型评估的新时代,OCRBench的引入为研究者和开发者提供了一个更为准确和全面的工具,以评估和改进多模态大模型的OCR能力,推动该领域的发展。这项研究不仅为多模态大模型的性能评估提供了新的思路,也为相关领域的研究和应用奠定了更加扎实的基础。

(责任编辑:深度)

相关内容
  • 手工耿自制本命年红运套装:满身红光成街头最亮的仔
  • 生成式AI开启大航海时代,但不能靠一个模型走天下
  • SDXL重要更新!Openpose和Scribble模型质量显著提升
  • 小孩攒2元硬币买冰淇淋被拒收 店员回应:并没有拒收
  • 美团比京东更需要董宇辉
  • Udio推出新的udio-130音乐生成模型:可生成两分钟音频
  • 黑客发布破解版ChatGPT “Godmode GPT”
  • 《庆余年2》里的范思辙要离开家人孤身去北齐:网友舍不得范思辙
推荐内容
  • AI视野:谷歌推小模型MobileDiffusion;Midjourney测试风格一致性功能;字节跳动推AI Bot开发平台扣子;LLaVA-1.6赶超Gemini Pro
  • 618网络集中促销合规提示发布:严禁二选一等违法行为
  • 腾讯正式发布AI助手App“腾讯元宝”:提供口语陪练特色应用
  • 高德导航红绿灯倒计时 为啥同一路口白天有 晚上没有
  • 人形机器人会变魔术了,春晚节目组了解一下(doge)
  • 黑客发布破解版ChatGPT “Godmode GPT”