开源世界模型LWM :百万级上下文,长视频理解超GPT-4
划重点:
⭐️ UC 伯克利研究人员开源首个世界模型,开源具有百万级上下文处理能力。世界上下视频
⭐️ 该模型在多模态任务中表现出色,模型长视频理解效果优于 GPT-4V 和 Gemini Pro。文长
⭐️ LWM 系列模型在 GitHub 上受到广泛关注,理解开发者积极参与并获得高星数。开源
CSS站长资源(ChinaZ.com)4月4日 消息:来自加州大学伯克利分校的世界上下视频研究人员最近发布并开源了首个世界模型,被称为 LWM(LargeWorldModel)系列模型。模型这一模型采用了大量视频和书籍数据集,文长通过 RingAttention 技术实现了长序列的理解可扩展训练,使得模型的开源上下文长度达到了1M token。
在实验中,世界上下视频LWM 系列模型展现出了优异的模型多模态性能,在文本图像生成、文长文本视频生成以及基于图像的理解对话等任务中表现出色。
研究人员指出,LWM 系列模型的多模态能力优于目前商业模型 GPT-4V 和 Gemini Pro,在处理超长视频理解方面尤为出色。更令人振奋的是,LWM 是一款开源模型,基于 Llama27B,受到了开发者们的热烈欢迎,仅在不到两周的时间里,就在 GitHub 上获得了超过6.2k 的 star。
该模型的训练过程分为两个阶段,首先是上下文扩展阶段,主要利用 Books3数据集将上下文长度从32K 扩展到1M。第二阶段是视觉语言培训,通过联合训练长视频和语言序列,提高模型在多模态任务中的表现。研究人员还对不同长度的文本和视频数据进行了逐步训练,并在模型设计和训练过程中做出了相应调整和优化。
这一开源的世界模型展示了强大的多模态处理能力,为相关领域的研究和开发提供了重要参考。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与,为人工智能领域的进步和创新带来了新的契机。
论文地址:https://arxiv.org/pdf/2402.08268.pdf
项目入口:https://github.com/LargeWorldModel/LWM
(责任编辑:资讯)
- ·微信输入法1.2.2正式版iOS/安卓双更新!剪贴板、方言语音输入来了
- ·Sora竟是用这些数据训练的?OpenAI CTO坦白惹众怒
- ·CPU、GPU、NPU,究竟谁才是“AI PC”的主角?
- ·Clipfly官网体验入口 AI视频生成编辑软件工具免费在线使用地址
- ·生财有道!高速遇堵车小货车用喇叭喊卖沃柑:1个半小时卖半车
- ·从457KB增至近700MB!微信体积罕见变小:朋友圈视频能编辑了
- ·CPU、GPU、NPU,究竟谁才是“AI PC”的主角?
- ·比亚迪海豹获葡萄牙2024年度汽车奖、设计奖
- ·限时免费!Adobe Firefly AI即将登陆Vision Pro,用户可在现实空间中创造个性化图像
- ·鸿蒙星河版WPS来了!核心功能版本已交付:原生开发、无缝协同