会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 苹果开发出能看懂屏幕上下文的人工智能技术ReALM!

苹果开发出能看懂屏幕上下文的人工智能技术ReALM

时间:2024-07-04 05:25:57 来源:带水拖泥网 作者:知识 阅读:514次

苹果开发出能看懂屏幕上下文的人工智能技术ReALM

CSS站长资源(ChinaZ.com)4月3日 消息:苹果开发出了一项能够实时理解和识别用户屏幕上显示内容的苹果屏幕人工智能技术,而且无需依赖屏幕截图或图像数据输入。开发看懂这项技术被称为ReALM(Real-time Analysis 上下of Live Media),它使得在与用户交流的人工过程中,智能助手能够看到用户所看到的技术一切内容,并理解用户当前正在进行的苹果屏幕活动,从而随时提供帮助。开发看懂

论文地址:https://arxiv.org/pdf/2403.20329.pdf

ReALM技术通过将屏幕上的上下元素和布局转换为文本形式,然后利用这些文本信息来解析用户提出的人工与屏幕内容相关的查询或指令。比如用户可以说“打开我屏幕上显示的技术第一个应用”或“读取屏幕中央的新闻标题”,即使实际上该智能助手并未“看到”用户的苹果屏幕屏幕。

这种能力特别适用于需要对屏幕上信息进行快速反应和处理的开发看懂应用场景,比如虚拟助手和辅助技术等。上下通过ReALM技术,人工智能助手可以更加智能地理解用户的技术意图,并提供更加准确和个性化的帮助和服务。

这一举措预示着 iOS18将于2024年6月的 WWDC 发布,届时我们预计将推出全新的 Siri2.0,尽管目前尚不清楚该模型是否会及时集成到 Siri 中。这并不是苹果最近几个月在人工智能领域的首次尝试,公司推出了一系列新模型、工具以及合作伙伴关系,所有这些都预示着一家准备将人工智能作为业务中心的公司。

ReALM 是苹果快速增长的人工智能研究团队发布的最新消息,也是第一个专注于改进现有模型的消息,使其更快、更智能和更高效。

该公司声称,甚至在某些任务上优于 OpenAI 的 GPT-4。最新发布的详细信息来自苹果公司于周五发布的一篇新的开放研究论文,首次由 Venture Beat 在周一报道。对于它是否将实际成为 iOS18的一部分,苹果公司对此尚未置评。

ReALM 是如何工作的?

ReALM 与 GPT-4等模型相比要小得多。但这是因为它不需要做所有的事情。它的目的是为其他人工智能模型提供上下文,比如 Siri。

这是一个视觉模型,重新构建屏幕并标记每个屏幕实体及其位置。这创建了屏幕布局的基于文本的表示,可以传递给语音助手,为用户请求提供上下文线索。

在准确性方面,苹果表示,尽管体积更小、速度更快,ReALM 在一些关键指标上的表现与 GPT-4相当好。

这对 Siri 意味着什么?这意味着,如果未来版本的 ReALM 被部署到 Siri—— 甚至是这个版本 —— 那么当用户告诉它打开这个应用程序,或者告诉我这个图像中这个词的含义时,Siri 将更好地理解用户的意图。

它还将使 Siri 在不必完全部署像 Gemini 这样的大型语言模型的情况下具有更多的对话能力。当结合其他最近的苹果研究论文,允许 “一次性” 响应 —— 即 AI 可以从单个提示中获得答案 —— 这表明苹果仍在大力投资于 AI 助手领域,而不仅仅依赖外部模型。

(责任编辑:业界)

相关内容
  • AI拜年模拟器“决战拜年之巅”网络走红 快来看看你是不是“大孝子”
  • 34家公司联名要求欧盟对苹果公司进行制裁
  • 卷王来了!零跑C10正式上市:12.88万元起
  • 天涯社区公布重启进度:5月1日前恢复访问
  • 微信新安装包突破700MB 微信体积再变大
  • 7499元起!华为Pocket 2卖爆:用户排长队购买
  • 2天销量涨超500% 娃哈哈官方店铺:备受感动 建议理性消费
  • 马斯克正式起诉 OpenAI、Sam Altman 状告违反合同等行为
推荐内容
  • 谷歌计划推出订阅服务Bard Advanced
  • Intel 288个小核心下代至强公开!性能飙升2.7倍
  • 卢伟冰:小米14 Ultra是中国品牌国际化重要的一步
  • 华为加持!问界M7 Max全量推送NCA智驾:全国无图都能开
  • 有人冒充“抖音客服”诈骗!抖音提醒:官方不会以任何理由要求用户转账
  • 阿维塔汽车总裁:高合丁磊是一位令人敬重的行业前辈