会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 UC伯克利研究者推大世界模型(LWM) 与Gemini 1.5 Pro能力相当!

UC伯克利研究者推大世界模型(LWM) 与Gemini 1.5 Pro能力相当

时间:2024-07-04 04:50:22 来源:带水拖泥网 作者:知识 阅读:783次

UC伯克利研究者推大世界模型(LWM) 与Gemini 1.5 Pro能力相当

CSS站长资源(ChinaZ.com)2月20日 消息:最近,伯克谷歌的利研Gemini1.5和OpenAI的Sora模型引发热议,但这些模型是世界否真的能很好地理解世界?以Sora为例,虽然给人们带来了惊喜,模型但在模拟复杂物理原理方面存在一定局限性,相当如健身男子倒跑跑步机。伯克随着大型模型的利研发展,固有的世界缺点也显现出来,模型在处理现实世界难以用语言描述的模型内容时表现困难,长程任务也难以处理。相当

因此,伯克视频模型的利研出现在一定程度上弥补了这一问题,提供了语言和静态图像所缺少的世界时间信息,为大型语言模型(LLM)的模型发展带来新的可能性。然而,相当由于内存限制、计算复杂性和有限的数据集,从数百万个视频和语言序列的token中学习仍然具有挑战性。

项目地址:https://top.aibase.com/tool/large-world-models

为了解决这些挑战,来自UC伯克利的研究者推出了大世界模型(LWM),利用RingAttention技术对长序列进行可扩展训练,这是一个带有视频生成功能的多模态模型,非常强大,与Gemini1.5Pro的能力相当。这个模型支持100万上下文的文本检索,可以分析超过1小时的视频,并支持视频和图片生成。

该研究在长视频和语言序列上训练了一个具有极大上下文尺寸的transformers模型,为新的检索任务和长视频理解设立了新的标杆。

通过RingAttention、掩码序列打包等方法,研究团队成功训练了数百万长度的多模态序列,提供了处理超过100万token长文本文档和视频的完全开源模型。LWM模型不仅可以根据文本提示生成图像和视频,还能深入理解图片、回答关于图片的问题,表现出优越的长视频理解能力。

总的来说,LWM模型在长视频问题回答方面表现优于业界其他模型,包括谷歌的Gemini Pro和OpenAI的GPT-4。研究者通过多种策略克服了视觉-语言训练的挑战,为处理长视频与语言序列提供了新的思路,如损失加权和使用模型生成的问答数据。该研究的推出将为语言模型更好地理解物理世界打开新的可能性,为人工智能技术的发展带来新的契机。

(责任编辑:深度)

相关内容
  • 假冒演员靳东用微信实施诈骗 8人获刑:骗取金额超31万
  • “开封王婆”被注册为婚介公司 网友质疑蹭流量 律师称侵权
  • 中国第三代自主超导量子计算机 “本源悟空”入驻国家超算互联网
  • 王婆火了赵梅累了:希望把机会留给真心想交朋友的人
  • 通过纠正检索增强生成 (CRAG) 提高大语言模型的准确性
  • 超越《铃芽之旅》!宫崎骏《你想活出怎样的人生》成中国影史清明节动画片票房冠军
  • 高三女生自驾上学实现通勤自由 满18岁就考取驾照:网友点赞
  • 抖音拟以超7.5亿元收购海联金汇旗下支付牌照
推荐内容
  • 湖北多地下冻雨 车子像被包浆一样:裹了一层“胶”
  • 高端设计下放!OPPO A3 Pro渲染图首曝:采用Find N3同款Deco
  • 台积电生产基地中断:业界担心苹果iPhone 15供应受影响
  • 文本生成3分钟44.1 kHz 音乐,Stable Audio 2.0重磅发布!
  • 本地生活混战,顺丰得“利”
  • 露营季来了,卖不动了