会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 Stability AI发布SD3技术报告 披露SD3更多细节!

Stability AI发布SD3技术报告 披露SD3更多细节

时间:2024-07-04 04:19:48 来源:带水拖泥网 作者:热点 阅读:232次

Stability AI发布SD3技术报告 披露SD3更多细节

CSS站长资源(ChinaZ.com)3月5日 消息:Stability AI 最近发布了他们最强的技节图片生成模型 Stable Diffusion3(SD3) 的技术报告,披露了 SD3的术报更多细节。据 Stability AI 所说,告披D更SD3在排版质量、多细美学质量和提示词理解上超过了目前所有的技节开源模型和商业模型,是术报目前最强的图片生成模型。

技术报告要点如下:

根据人类偏好评估,告披D更SD3在排版质量和对提示的多细理解程度上,均优于目前最先进的技节文本生成图像系统,例如 DALL·E3、术报Midjourney v6和 Ideogram v1。告披D更

报告提出了新的多细多模态扩散 Transformer (Multimodal Diffusion Transformer, 简称 MMDiT) 架构,技节其使用独立的术报权重集分别表示图像和语言。与 SD3的告披D更先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。

SD38B 大小的模型可以在 GTX409024G 显存上运行。此外,SD3将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从800M 到8B。

SD3架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,他们为这两种模态使用了独立的权重集。通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。

SD3采用了矫正流 (Rectified Flow, 简称 RF) 的公式,在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。

他们还进行了扩展矫正流 Transformer 模型的研究,使用重新加权的 RF 公式和 MMDiT 主干网络,训练了一系列模型,其规模从15个 Transformer 块 (4.5亿参数) 到38个块 (80亿参数) 不等。

SD3还引入了灵活的文本编码器,通过在推理阶段移除内存密集型的 T5文本编码器(参数量高达47亿),SD3的内存占用可以大幅降低,而性能损失却很小。

总的来说,Stability AI 的这一技术报告揭示了 SD3的强大功能和细节,显示出其在图片生成领域的领先地位。

详细内容点此查看:https://stability.ai/news/stable-diffusion-3-research-paper

(责任编辑:短视频)

相关内容
  • 小米15系列有望10月发布 首发骁龙8Gen4
  • 工人从长江大桥桥顶释放铁环除冰 确保桥面通行安全顺畅
  • 孩子玩手机把导航从回江西换到福建引热议:网友称导航软件Bug 别太依赖
  • OpenAI GPT 商店里这五款模型超好用
  • 医疗博主发布女性隆胸视频被处罚:已删除相关视频
  • 年轻人挤爆打金店:商家月赚90万,取货排队12小时
  • 2024春节档:没有大片,只有悬念
  • 春晚小品《东北合伙人》火了 网友:宋小宝文松颠公颠婆实锤
推荐内容
  • InstructIR:可按照人类指令进行高质量图像修复
  • 婚宴遇大雪宾客在猪圈里吃席 宾客:比淋雪要舒适得多
  • 打破世界记录!俄宇航员太空停留超878天
  • 年轻人挤爆打金店:商家月赚90万,取货排队12小时
  • 胖东来在门口给顾客身上扫雪:工作人员全程面带微笑
  • 开源AI拯救Meta一夜飙升1960亿刀,39岁小扎爬出元宇宙深坑!年分红7个亿,靠Llama赢麻了