北大字节提出图像生成新范式VAR 超越Sora核心组件DiT
CSS站长资源(ChinaZ.com)4月15日 消息:北大与字节跳动AI Lab联合提出了一种图像生成新范式——VAR(Visual Autoregressive Modeling),字节组件这一新方法的提出图像核心在于预测下一级分辨率,而非传统的生成式预测下一个token。VAR的新范提出不仅在图像生成质量上超越了Sora的核心组件Diffusion Transformer(DiT),而且在推理速度上也实现了20倍以上的核心提升。这一成果已经在GitHub上开源,字节组件迅速获得了1.3k的提出图像标星,并登上了GitHub趋势榜。生成式
项目地址:https://github.com/FoundationVision/VAR
论文:https://arxiv.org/abs/2404.02905
VAR的新范工作流程分为两个阶段。在第一阶段,核心VAR引入了多尺度离散表示,字节组件通过VQ-VAE将连续图像编码为不同分辨率的提出图像离散token map。
在第二阶段,生成式VAR Transformer通过预测更高分辨率的新范图像来进一步优化模型。具体来说,核心模型从最低分辨率的token map开始,逐步预测到更高分辨率的完整token map,直至生成最高分辨率的图像。
在这一过程中,模型会综合考虑之前所有步骤生成的映射信息,从而提高预测的准确性。与传统自回归模型不同,VAR在每个尺度内并行预测所有位置的token,这一特点显著提高了生成效率。
VAR的提出,不仅在图像生成领域首次击败了DiT,而且在实验中显示出了大语言模型类似的Scaling Laws和零样本任务泛化能力。在ImageNet256×256的数据集上,VAR将FID(Fréchet Inception Distance,一种衡量生成图像质量的指标)从18.65降到了1.8,IS(Inception Score,衡量生成图像多样性的指标)从80.4提高到了356.4,这些结果表明VAR在图像生成质量和多样性上都有显著提升。此外,VAR只需要350个训练周期,远少于DiT-XL/2所需的1400个周期,显示出更高的数据效率。
VAR的研究成果已经在GitHub上公开,包括推理示例、demo、模型权重和训练代码,供研究者和开发者使用和参考。VAR的提出,不仅为图像生成领域带来了新的研究方向和技术突破,也可能为未来的AI应用开辟新的可能性。同时,VAR的开源也体现了学术界与工业界合作的积极成果,有助于推动整个AI领域的发展和创新。
(责任编辑:自媒体)
- ·2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元
- ·8天狂卷8亿元,揭秘短剧生意
- ·Playground发布文生图模型v2.5 提升人像细节
- ·报道称,Tumblr 所有者正在与 OpenAI 和 Midjourney 就训练数据达成协议
- ·MWC 2024 见,传音 Tecno 首批支持杜比全景声的 POVA 6 手机阵容曝光
- ·AI图像编辑器Photoroom以5亿美元估值融资了4300万美元
- ·探索十年后放弃!曝苹果取消电动汽车研发:团队转向生成式AI
- ·上海到北京仅需2.5小时引热议:其实时间不能这样算
- ·北方和南方小年差一天:你可知道为什么
- ·谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?