多模态模型再进化,已学会看图玩扑克、算“12点”
CSS站长资源(ChinaZ.com)6月4日 消息:在科技领域2点多模态模型的多模决策能力一直是研究的热点。最近,态模图玩UC伯克利等高校的型再研究团队提出了一种名为RL4VLM的全新强化学习框架,成功地提升了多模态大模型在决策任务上的进化表现。该模型在无需人类反馈的已学情况下,通过强化学习微调,扑克已经学会了看图玩扑克2点算“12点”等任务,多模并且其表现超越了GPT-4v。态模图玩
研究团队由多位重量级人物组成,型再包括图灵奖得主、进化Meta首席AI科学家、已学纽约大学教授LeCun,扑克UC伯克利2点Sergry Levine教授,以及香港大学数据科学学院院长、UC伯克利教授马毅等。他们的研究成果已经以论文预印本的形式发布,并且相关代码已在GitHub上开源。
RL4VLM的核心是一种新的算法框架,它直接使用强化学习方法对多模态大模型进行微调。这种方法的一个显著特点是,奖励信息直接来源于环境,不再依赖于人类反馈。这不仅提高了效率,也赋予了多模态模型自主决策的能力。
为了全面评估RL4VLM的效果,研究团队设计了两类评测任务。第一类任务主要测试模型利用图像中的细粒度视觉信息进行决策的能力,包括数字识别和逻辑推理。第二类任务则主要考察模型在具身智能环境中的视觉语义推理能力。
具体到任务,研究团队设计了数轴(Numberline)、简易12点(EZPoint)、24点(Point24)、21点(Blackjack)和ALFWorld等五个任务。其中,ALFWorld是微软等于2020年提出的开源具身智能任务集,而其他任务则是研究团队的原创设计。
实验结果令人鼓舞。经过强化学习微调的多模态模型,在决策问题上的表现不仅超过了商用模型GPT-4v,同时也超越了传统的监督微调方法。特别是在ALFWorld的具身智能任务中,RL4VLM模型取得了最高的平均分,尤其在单物体拾取任务上表现突出。
RL4VLM的工作流程是这样的:首先,系统将任务的当前状态以图片和文字描述的形式输入多模态大模型,并要求模型输出一段思维链,然后以文字形式输出要执行的动作。动作信息输入环境后,获得奖励值,该奖励值将用于强化学习训练。
为了适应RL训练框架,研究人员对模型的输入和输出进行了调整。具体来说,将任务图像和任务描述的文本合并后,直接作为当前任务的状态输入。在获得模型的文字输出后,将其转化为与环境交互的动作指令。
消融实验结果表明,使用思维链提示过程对任务成功率至关重要。这项研究不仅为多模态模型的性能提升提供了新的思路,也为未来人工智能的发展开辟了新的可能性。
论文地址:https://arxiv.org/abs/2405.10292
项目地址:https://top.aibase.com/tool/rl4vlm
(责任编辑:知识)
- ·AI绘画转视频神器——巨日禄AI:小说、漫画推文一站式生成
- ·斗鱼退缴主播非法收益超1亿元!称坚持合法合规经营
- ·开源音频模型Stable Audio Open,文本生成47秒高清音效
- ·Seed-TTS完全指南:字节文生语音使用方法教程与免费体验入口
- ·苹果高通调制解调器专利授权协议延长两年 至2027年3月
- ·北京9岁小学生,已经用AI出书了!罗永浩围观:有事找不到我找AI
- ·CamCo:可控制相机的3D 一致图像到视频生成
- ·男子多次骑“品自行车”碰瓷:判刑两年半 处罚2万元
- ·OnePlus11 和 12 手机将迎来人工智能功能更新
- ·斗鱼发布 2024 年 Q1 财报:营收达 10.4 亿元
- ·钉钉正式登陆苹果Vision Pro 推出 Vision Pro 原生应用
- ·雷军祝福高考:祝大家每天好运 1342万人明天高考
- ·ChatGPT之父预测!中国将有自己的特色大模型
- ·Seed-TTS模型有哪些功能免费吗?字节文生音频怎么使用方法详细教程指南
- ·亿万富翁投资者 David Tepper 将58%的投资组合投入这7只AI股票
- ·张朝阳给高考生建议:家长不该强求孩子上清华北大
- ·只因俞敏洪一句话:东方甄选三天跌没了30亿
- ·ChatGPT之父预测!中国将有自己的特色大模型
- ·ARC浏览器发布了2个好用功能 彻底改变传统搜索模式
- ·高德地图上线肯德基“车速取”功能 不用下车就能取餐