会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 苹果大模型MM1入场:参数达到300亿 超半数作者是华人!

苹果大模型MM1入场:参数达到300亿 超半数作者是华人

时间:2024-07-02 03:42:50 来源:带水拖泥网 作者:电商 阅读:828次

苹果大模型MM1入场:参数达到300亿 超半数作者是华人

要点:

  • 苹果发布了多模态大型语言模型MM1,苹果参数达到300亿,大模到亿采用MoE架构,入人超半数作者为华人。场参超半

  • MM1在模型架构、数达数作预训练数据选择和训练方法上进行了详细探讨,苹果并在多项基准测试中表现出竞争力。大模到亿

  • MM1的入人预训练和监督微调结果显示,采用不同的场参超半数据和训练策略可以获得更好的性能,MoE模型进一步扩展了潜力。数达数作

CSS站长资源(ChinaZ.com)3月15日 消息:苹果公司最新发布了一款名为MM1的苹果大型多模态基础模型,拥有300亿参数,大模到亿采用了MoE架构,入人并且超过一半的场参超半作者是华人。该模型在多模态领域具有重要意义,数达数作可能预示着苹果未来推出与此相关的产品。

今年以来,苹果明显加大了对生成式人工智能(GenAI)领域的投入,这一举措体现了苹果在GenAI领域取得重大进展的决心。据悉,苹果一部分转向GenAI的团队原本是从事造车项目的,而如今他们也开始投身于GenAI领域的研发工作。

论文地址:https://arxiv.org/pdf/2403.09611.pdf

MM1的发布引起了广泛关注。据论文介绍,该模型采用了MoE变体,并且在预训练指标和多项多模态基准测试上表现出了领先水平。研究者通过多项消融试验,探讨了模型架构、预训练数据选择以及训练程序等方面的重要性。他们发现,图像分辨率、视觉编码器损失和预训练数据在建模设计中都起着关键作用。

在预训练数据选择方面,研究者发现了几个重要经验:交错数据对提高少样本和纯文本性能有帮助,而字幕数据则对提高零样本性能具有重要作用。

此外,纯文本数据对于提高少样本和纯文本性能同样至关重要。通过合理混合图像和文本数据,可以获得最佳的多模态性能,并保留较强的文本性能。研究者还发现,人工合成数据有助于少样本学习。

最终,研究者确定了MM1的最终配方,包括图像编码器、视觉语言连接器和预训练数据的选择。他们还将LLM的大小扩大到3B、7B和30B个参数,并通过专家混合(MoE)进一步扩展了模型。在监督微调实验中,MM1在多项基准测试上表现出了竞争力,并且MoE模型在几乎所有基准测试中均表现优于密集模型。

MM1的发布标志着苹果在多模态领域的重要进展,也为未来苹果可能推出的相关产品奠定了技术基础。该研究的成果对于推动生成式人工智能领域的发展具有重要意义,值得业界密切关注。

(责任编辑:电商)

相关内容
  • 全球!三星Galaxy S24 Ultra DXO屏幕得分155分:碾压iPhone 15 Pro Max
  • 最轻薄旗舰机!小米Civi 4 Pro重量仅179g、厚度7.45mm
  • 成都麻辣烫店因人潮爆满歇业:呼吁食客理性消费
  • 李想发全员信自我批评:理想汽车不再单纯追求销量
  • 抖音提醒注意冒充“抖音客服”诈骗:不会要求添加客服社交账号
  • SSD等涨价25%只是开始!三星工厂突然大火:存储价格又要涨了
  • 消保委点名周杰伦演唱会购票先充VIP:侵犯消费者权益
  • 中国成功发射云海二号02组卫星:刷新我国这项记录
推荐内容
  • 只需0.5秒!MobileDiffusion:在手机设备上就能实现快速文本生成图像
  • 外媒:OpenAI已向客户提供GPT-5体验版,夏季或将正式推出
  • 普通中端手机四倍!一加Ace 3V搭载天工散热系统:同档罕见万级VC
  • AI机器人“整顿”社交平台
  • 比尔盖茨中国小年送祝福:大家龙年幸福安康 对未来充满乐观和希望
  • 小米14 Pro配置全面下放!小米Civi 4 Pro搭载同款屏幕材质