会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 开源世界模型LWM :百万级上下文,长视频理解超GPT-4!

开源世界模型LWM :百万级上下文,长视频理解超GPT-4

时间:2024-07-04 05:24:14 来源:带水拖泥网 作者:短视频 阅读:108次

开源世界模型LWM :百万级上下文,长视频理解超GPT-4

划重点:

⭐️ UC 伯克利研究人员开源首个世界模型,开源具有百万级上下文处理能力。世界上下视频

⭐️ 该模型在多模态任务中表现出色,模型长视频理解效果优于 GPT-4V 和 Gemini Pro。文长

⭐️ LWM 系列模型在 GitHub 上受到广泛关注,理解开发者积极参与并获得高星数。开源

CSS站长资源(ChinaZ.com)4月4日 消息:来自加州大学伯克利分校的世界上下视频研究人员最近发布并开源了首个世界模型,被称为 LWM(LargeWorldModel)系列模型。模型这一模型采用了大量视频和书籍数据集,文长通过 RingAttention 技术实现了长序列的理解可扩展训练,使得模型的开源上下文长度达到了1M token。

在实验中,世界上下视频LWM 系列模型展现出了优异的模型多模态性能,在文本图像生成、文长文本视频生成以及基于图像的理解对话等任务中表现出色。

研究人员指出,LWM 系列模型的多模态能力优于目前商业模型 GPT-4V 和 Gemini Pro,在处理超长视频理解方面尤为出色。更令人振奋的是,LWM 是一款开源模型,基于 Llama27B,受到了开发者们的热烈欢迎,仅在不到两周的时间里,就在 GitHub 上获得了超过6.2k 的 star。

该模型的训练过程分为两个阶段,首先是上下文扩展阶段,主要利用 Books3数据集将上下文长度从32K 扩展到1M。第二阶段是视觉语言培训,通过联合训练长视频和语言序列,提高模型在多模态任务中的表现。研究人员还对不同长度的文本和视频数据进行了逐步训练,并在模型设计和训练过程中做出了相应调整和优化。

这一开源的世界模型展示了强大的多模态处理能力,为相关领域的研究和开发提供了重要参考。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与,为人工智能领域的进步和创新带来了新的契机。

论文地址:https://arxiv.org/pdf/2402.08268.pdf

项目入口:https://github.com/LargeWorldModel/LWM

(责任编辑:资讯)

相关内容
  • 小米15系列有望10月发布 首发骁龙8Gen4
  • 人类火箭星舰试飞失败又如何 马斯克晒大量发射照:震撼
  • 暴雪国服回归在即!魔兽、炉石等公众号全部复活:IP清一色浙江
  • 30天涨粉100万!AI猫猫剧情号火了 “卖惨”成新晋流量密码
  • 熊孩子玩手机 把导航从回江西换到福建:多开了200多公里
  • 抖音打击网络水军 封禁超3000个恶意举报账号
  • 华为展示未来的家:以体验、所见即所得的方式交付
  • 李飞飞团队推手部动捕系统DexCap 泡茶剪纸轻松完成
推荐内容
  • 周鸿祎表白偶像刘德华:喜欢你两点
  • 315曝光多家婚恋平台收割消费者:把客户当成猎物
  • 前亚马逊高管 Joseph Sirosh 创立新公司 CreatorsAGI,旨在让内容创作者打造个性化对话 AI
  • 雷军:小米汽车目标是全球前五 为中国汽车崛起而奋斗
  • 网红帮女生找到失散22年妈妈 网友助力母女终相认
  • 麦当劳回应系统再次崩溃:正在紧急抢修中