会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 Meta发布类GPT-4o多模态模型Chameleon!

Meta发布类GPT-4o多模态模型Chameleon

时间:2024-07-02 04:01:08 来源:带水拖泥网 作者:热点 阅读:813次

Meta发布类GPT-4o多模态模型Chameleon

CSS站长资源(ChinaZ.com)5月21日 消息:Meta最近发布了一个名为Chameleon的发布多模态模型,它在多模态模型发展中设立了新的模态模型标杆。Chameleon是发布一个早期融合的基于token的混合模态模型家族,能够理解并生成任意顺序的模态模型图像和文本。它通过一个统一的发布Transformer架构,使用文本、模态模型图像和代码混合模态完成训练,发布并且对图像进行分词化,模态模型生成交错的发布文本和图像序列。

Chameleon模型的模态模型创新之处在于其早期融合方法,所有处理流程从一开始就映射到一个共同的发布表示空间,让模型能够无缝处理文本和图像。模态模型它在各种任务上展示了广泛的发布能力,包括视觉问答、模态模型图像标注、发布文本生成、图像生成和长形式混合模态生成。在图像标注任务上,Chameleon达到了最先进的性能,并且在文本任务上超越了Llama-2,与Mixtral8x7B和Gemini-Pro等模型竞争。

论文地址:https://arxiv.org/pdf/2405.09818

Chameleon模型在技术上面临了重大挑战,Meta的研究团队引入了一系列架构创新和训练技术。例如,他们开发了新的图像分词器,基于8192大小的codebook,将512×512的图像编码为1024个离散的token。此外,Chameleon使用了sentencepiece开源库训练的BPE分词器。

在预训练阶段,Chameleon使用了混合模态数据,包括纯文本、文本-图像对以及文本和图像交错的多模态文档。预训练分为两个阶段,第一阶段无监督学习,第二阶段混合更高质量的数据。

Chameleon模型在基准评估中全面超越了Llama2,在常识推理、阅读理解、数学问题和世界知识领域都取得了显著的效果。在人工评估和安全测试中,Chameleon-34B的表现也远远超过了Gemini Pro和GPT-4V。

尽管Chameleon缺少GPT-4o中的语音能力,但Meta的产品管理总监表示,他们非常自豪能够支持这个团队,并希望让GPT-4o更接近开源社区。这可能意味着不久的将来,我们可能会得到一个开源版的GPT-4o。

Chameleon模型的发布,展示了Meta在多模态模型领域的重大进展,它不仅推动了多模态模型的发展,也为未来的研究和应用提供了新的可能性。

(责任编辑:热点)

相关内容
  • 不怕投诉了!高铁有遛娃车厢了:餐车车厢部分区域临时改造
  • Ace!一加Ace 3 Pro外观、性能全面升级:骁龙8 Gen3加持
  • 小米汽车北京车展发布会定档4月25日:将公布锁单交付成绩
  • 理想汽车宣布全新价格:MEGA降价3万元 售价52.98万元
  • 暴雪导致高速瘫痪:车主被困十余小时 食物还能吃2天
  • 男子垂钓被“亿”点点观众围观:全神贯注 不受环境影响
  • 抖音粉丝超1858万成车圈顶流!雷军:应该算小有名气的博主吧
  • 特斯拉与小米SU7价差缩小到1.6万:你会买谁!
推荐内容
  • 支持Animatediff所有控制方式!AnimateLCM 4步推理即可生成视频
  • 微软演示 VASA-1 深度伪造因效果太好不适合向公众发布
  • 李斌:蔚来自研芯片一颗顶英伟达四颗
  • 中国接入互联网30周年!马化腾、雷军、周鸿祎聚首
  • 独立开发变现周刊(第122期):一个文字生成视频在线SaaS工具,年收入7.5万美元
  • 马斯克重申:特斯拉价值还能再增长10倍!