会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型!

谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型

时间:2024-07-02 04:29:13 来源:带水拖泥网 作者:业界 阅读:440次

谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型

划重点:

⭐️ Google AI 团队提出了 ScreenAI,谷歌这是推出一个视觉语言模型,可以全面理解 UI 和信息图。用于言模

⭐️ ScreenAI 在多个任务上表现出色,和信包括图形问答(QA),息图型元素注释,解读觉语摘要生成等。谷歌

⭐️ 该团队发布了三个新数据集,推出为未来研究提供更多资源。用于言模

CSS站长资源(ChinaZ.com)2月21日 消息:Google AI 最近提出了 ScreenAI,和信这是息图型一个视觉语言模型,旨在全面理解用户界面(UI)和信息图。解读觉语UI 和信息图在现代数字世界中共享设计概念和视觉语言,谷歌但由于每个领域的推出复杂性,创建一个统一的用于言模模型变得更加困难。为了解决这个问题,Google AI 团队提出了 ScreenAI 作为解决方案。

ScreenAI 具有处理图形问答(QA)等任务的能力,这些任务可能涉及图表、图片、地图等元素。该模型结合了来自 Pix2struct 的灵活 patching 方法和 PaLI 架构,使其能够将视觉相关任务转化为文本或图像到文本问题。

团队进行了多项测试,展示了这些设计决策如何影响模型的功能。经评估,ScreenAI 在诸如 Multipage DocVQA、WebSRC、MoTIF 和 Widget Captioning 等任务上取得了新的最先进结果,参数数量不到50亿。在诸如 DocVQA、信息图 QA 和图表 QA 等任务上表现出色,优于同等规模模型。

团队发布了三个新数据集:Screen Annotation、ScreenQA Short 和 Complex ScreenQA。其中一个数据集专注于未来研究的屏幕注释任务,另外两个数据集则专注于问答,进一步扩展了可用资源,以推动该领域的发展。

ScreenAI 是朝着综合解决信息图和用户界面理解问题的一步。通过利用这些组件的共同视觉语言和复杂设计,ScreenAI 为理解数字内容提供了全面的方法。

论文地址:https://arxiv.org/abs/2402.04615

(责任编辑:电商)

相关内容
  • 库克宣布全新人工智能功能今年发布!iOS 18将迎苹果史上升级
  • 已婚男在“王婆说媒”走红 妻子在日本发声晒结婚证:十分崩溃
  • 一年净赚45亿元,“中国最牛服务员”拯救海底捞
  • 凯迪拉克:泼天的流量轮到我了 感谢关注和批评的声音
  • 决战拜年之巅怎么玩 决战拜年之巅入口在哪?
  • 餐厅被樱花给的泼天富贵砸晕了:一座难求 食客纷纷打卡
  • 小米汽车销售忙到飞起:这辈子干销售没见过这么多人
  • 员工请假照顾父亲 老板提前发工资
推荐内容
  • !华为问界“无图NCA”首批推送开启:全国都能开
  • 阿维塔12敞篷版惊艳亮相!官方:敬请期待
  • 剪映Dreamina上线智能画布功能 一站式整合mj+sd+PS工作流
  • 丧偶双胞胎妈妈相亲 王婆哭了:真诚且目标明确
  • 为什么高铁座椅没有E号上热搜 网友:抓去当视力表了
  • 开封王婆:说媒现在变味了 被各大网红盯上