开源世界模型LWM ：百万级上下文，长视频理解超GPT-4-带水拖泥网

当前位置：首页 > 深度 > 开源世界模型LWM ：百万级上下文，长视频理解超GPT-4 正文

开源世界模型LWM ：百万级上下文，长视频理解超GPT-4

时间：2024-07-04 05:24:14 来源：带水拖泥网作者：短视频阅读：108次

开源世界模型LWM ：百万级上下文，长视频理解超GPT-4

划重点:

⭐️ UC 伯克利研究人员开源首个世界模型，开源具有百万级上下文处理能力。世界上下视频

⭐️ 该模型在多模态任务中表现出色，模型长视频理解效果优于 GPT-4V 和 Gemini Pro。文长

⭐️ LWM 系列模型在 GitHub 上受到广泛关注，理解开发者积极参与并获得高星数。开源

CSS站长资源（ChinaZ.com）4月4日消息:来自加州大学伯克利分校的世界上下视频研究人员最近发布并开源了首个世界模型，被称为 LWM（LargeWorldModel）系列模型。模型这一模型采用了大量视频和书籍数据集，文长通过 RingAttention 技术实现了长序列的理解可扩展训练，使得模型的开源上下文长度达到了1M token。

在实验中，世界上下视频LWM 系列模型展现出了优异的模型多模态性能，在文本图像生成、文长文本视频生成以及基于图像的理解对话等任务中表现出色。

研究人员指出，LWM 系列模型的多模态能力优于目前商业模型 GPT-4V 和 Gemini Pro，在处理超长视频理解方面尤为出色。更令人振奋的是，LWM 是一款开源模型，基于 Llama27B，受到了开发者们的热烈欢迎，仅在不到两周的时间里，就在 GitHub 上获得了超过6.2k 的 star。

该模型的训练过程分为两个阶段，首先是上下文扩展阶段，主要利用 Books3数据集将上下文长度从32K 扩展到1M。第二阶段是视觉语言培训，通过联合训练长视频和语言序列，提高模型在多模态任务中的表现。研究人员还对不同长度的文本和视频数据进行了逐步训练，并在模型设计和训练过程中做出了相应调整和优化。

这一开源的世界模型展示了强大的多模态处理能力，为相关领域的研究和开发提供了重要参考。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与，为人工智能领域的进步和创新带来了新的契机。

论文地址:https://arxiv.org/pdf/2402.08268.pdf

项目入口:https://github.com/LargeWorldModel/LWM

(责任编辑：资讯)

[1]

[2]

[3]

上一篇：孩子玩手机把导航从回江西换到福建引热议：网友称导航软件Bug 别太依赖
下一篇：90%的人都做不好自媒体！