谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型
划重点:
⭐️ Google AI 团队提出了 ScreenAI,谷歌这是推出一个视觉语言模型,可以全面理解 UI 和信息图。用于言模
⭐️ ScreenAI 在多个任务上表现出色,和信包括图形问答(QA),息图型元素注释,解读觉语摘要生成等。谷歌
⭐️ 该团队发布了三个新数据集,推出为未来研究提供更多资源。用于言模
CSS站长资源(ChinaZ.com)2月21日 消息:Google AI 最近提出了 ScreenAI,和信这是息图型一个视觉语言模型,旨在全面理解用户界面(UI)和信息图。解读觉语UI 和信息图在现代数字世界中共享设计概念和视觉语言,谷歌但由于每个领域的推出复杂性,创建一个统一的用于言模模型变得更加困难。为了解决这个问题,Google AI 团队提出了 ScreenAI 作为解决方案。
ScreenAI 具有处理图形问答(QA)等任务的能力,这些任务可能涉及图表、图片、地图等元素。该模型结合了来自 Pix2struct 的灵活 patching 方法和 PaLI 架构,使其能够将视觉相关任务转化为文本或图像到文本问题。
团队进行了多项测试,展示了这些设计决策如何影响模型的功能。经评估,ScreenAI 在诸如 Multipage DocVQA、WebSRC、MoTIF 和 Widget Captioning 等任务上取得了新的最先进结果,参数数量不到50亿。在诸如 DocVQA、信息图 QA 和图表 QA 等任务上表现出色,优于同等规模模型。
团队发布了三个新数据集:Screen Annotation、ScreenQA Short 和 Complex ScreenQA。其中一个数据集专注于未来研究的屏幕注释任务,另外两个数据集则专注于问答,进一步扩展了可用资源,以推动该领域的发展。
ScreenAI 是朝着综合解决信息图和用户界面理解问题的一步。通过利用这些组件的共同视觉语言和复杂设计,ScreenAI 为理解数字内容提供了全面的方法。
论文地址:https://arxiv.org/abs/2402.04615
(责任编辑:电商)
- ·超小米荣耀!华为HarmonyOS 4无障碍适配获五星评分
- ·从300多个国内大模型中脱颖而出的Kimi是谁?
- ·AI视频生成神器 PixVerse:保持角色一致性、百变场景
- ·王腾升任Redmi总经理:卢伟冰赠送象征Redmi战斗精神的“拳套”
- ·不怕投诉了!高铁有遛娃车厢了:餐车车厢部分区域临时改造
- ·OPPO旗舰!OPPO Find X7 Ultra卫星通信版明天首销:7499元
- ·iQOO 12系列手机更新支持全高频调光、Wi-Fi 7、通信共享,即将升级 5.5G
- ·价格战逆势上涨!特斯拉中国Model Y全系涨价5000元:26.39万元起
- ·OPPO Find X7 Ultra卫星通信版春节后登场:支持听筒/免提双模卫星通话
- ·“Al无界·萤未来”——萤石2024春季新品发布,重塑人本智能生活新纪元
- ·高速惊现老头乐不到50迈一路压车 车主回应引众怒:网友吵翻为何不重罚只教育
- ·特斯拉中国 Model Y 全系涨价 5000 元 售价 263900 元起
- ·丧偶双胞胎妈妈相亲 王婆哭了:真诚且目标明确
- ·3个月大外孙17斤姥姥嫌太瘦落泪:一天5顿变6顿
- ·OnePlus11 和 12 手机将迎来人工智能功能更新
- ·iQOO 12 Pro升级高频调光 产品经理:被严重低估的旗舰补齐最后短板
- ·小米SU7创始版第二轮惊喜开售!来自首轮异常订单拦截
- ·华为云与贵州签约:全力打造全球智算中心!
- ·Midjourney测试“风格一致性”功能 支持V6版本(附使用方法)
- ·重磅!百亿新投入,淘宝内容电商再加码