阿里推自主多模态AI代理MobileAgent 可模拟人类操作手机
CSS站长资源(ChinaZ.com)2月1日 消息:MobileAgent是阿里由阿里巴巴开发的一个自主多模态AI代理,可以模拟人类操作手机,推自是主多一个纯视觉解决方案,不需要任何系统代码,模态模拟完全通过分析图像来理解和操作手机。代理
项目地址:https://top.aibase.com/tool/mobile-agent
特点:
依赖于纯视觉解决方案: MobileAgent通过分析图像来理解和操作手机,人类而无需任何系统代码。操作这增加了通用性和灵活性,手机使其能够在没有访问底层代码或数据权限的阿里情况下操作应用。
独立于XML和系统元数据: 不依赖XML文件和系统元数据,推自提高了通用性和灵活性。主多
多种视觉感知工具: 使用多种技术进行操作定位,模态模拟包括文本、代理图标、人类按钮等。操作
即插即用: 无需训练,可直接在不同设备和应用上使用。
MobileAgent能够自动完成各种任务,比如在Alibaba上帮助用户找到帽子,并根据条件添加到购物车,在Amazon Music中搜索歌手Jay Chou或播放关于“代理”的音乐,在Chrome中搜索今日湖人队比赛结果或关于Taylor Swift的信息,在Gmail中发送空邮件或具有特定内容的邮件,在TikTok上为宠物猫视频点赞或评论等,还可以结合使用多个应用完成复杂任务。
MobileAgent的特点包括依赖于纯视觉解决方案,独立于XML和系统元数据,具备多种视觉感知工具进行操作定位,无需探索和训练,即插即用。
其工作原理包括视觉感知工具,自主任务规划和执行,自反思和提示格式。 MobileAgent使用了视觉感知模块、文本和图标定位,自主规划和自反思方法来实现对手机应用的操作。观察、思考和行动是MobileAgent采用的提示格式,要求代理输出三个组成部分。
(责任编辑:短视频)
- ·你的城市有这素质吗:杭州斑马线前礼让行人感动外地游客 特别好的城市
- ·日本和欧盟合作制定氢能国际标准:谋求氢能市场发挥主导作用
- ·疯狂甩头流口水:骆驼吃柠檬被酸出表情包
- ·才知道微信可以锁屏录音!教程来了:三步开启
- ·苹果Vision Pro头显已开售!米哈游官宣:《崩坏:星穹铁道》2月6日登陆
- ·IBM 推出高效 LLM 基准测试方法,计算成本降低99%
- ·跌幅超98% 伯克希尔等数只美股疑行情异常:纽交所回应称技术性问题
- ·靠一张壁纸1天涨粉10万?X上爆火的掌机壁纸制作详细教程(附Midjourney Prompt)
- ·6岁女孩在爸爸公司年会上自信跳舞 乐坏了旁边的妈妈
- ·影像大幅提升 iPhone 16 Pro系列首发IMX903
- ·《崩坏:星穹铁道》iOS App即将登陆苹果Vision Pro头显 2月6日发售
- ·周鸿祎:问界M9国内做智能驾驶的车 没有之一
- ·三星新旗舰要来了 Z Fold6真机曝光:方正外观设计抢眼
- ·特斯拉:起火风险约仅为燃油车的八分之一
- ·49元比去年便宜!2024春节档平均票价降了:9部电影定档你看哪部
- ·周鸿祎回应为何选择问界M9:十个理由都绰绰有余 安全排
- ·新加坡计划建设量子计算和数据中心,推动人工智能发展
- ·ollama是什么?带你了解本地部署大型语言模型的开源框架
- ·SVD视频生成模型的Web平台开始发放测试资格
- ·跌幅超98% 伯克希尔等数只美股疑行情异常:纽交所回应称技术性问题