英特尔团队提出L-MAGIC新技术 通过结合语言模型让图像扩散模型生成高质量360度场景
CSS站长资源(ChinaZ.com)6月11日 消息:在CVPR2024上,英特语美国英特尔研究院的尔团蔡志鹏博士及其团队提出了一种名为L-MAGIC(Language Model Assisted Generation of Images with Coherence)的新技术。这项技术通过结合语言模型和图像扩散模型,队提度场实现了高质量、出L成高多模态、新像扩型生零样本泛化的技术结合景360度场景生成。
核心特点:
结合语言模型和扩散模型:L-MAGIC利用自然图像连接不同模态的通过输入,并通过条件扩散模型如ControlNet从各种模态输入生成自然图像。模型
迭代变形和填充:在获得自然图像后,让图L-MAGIC通过迭代变形(warping)和填充(inpainting)生成360度场景的散模多个视角,使用基于扩散的质量图像填充模型(如Stable Diffusion v2)生成缺失像素。
语言模型控制:L-MAGIC使用语言模型自动控制扩散模型,英特语根据每个视角需要生成的尔团场景内容,有效保持语言及扩散模型的队提度场泛化性。
多样化场景生成:L-MAGIC能够生成多样化的出L成高全局场景结构,无需微调,从而实现多样化场景的高质量生成。
多模态输入:除了自然图像,L-MAGIC还能接受文字、手绘草图、深度图等多种模态的输入。
实验结果表明:
L-MAGIC在图像到360度场景生成及文字到360度场景生成任务中均达到了SOTA(State of the Art)。
能够生成具有多样化360度场景结构的全景图,并且能够平滑地完成360度闭环。
除了文字和自然图像,L-MAGIC还能够使用ControlNet接受多样化的输入,如深度图、设计草图等。
技术应用:
L-MAGIC还能够利用深度估计模型生成场景的沉浸式视频和三维点云,为场景理解和可视化提供了更多可能性。
项目主页:https://zhipengcai.github.io/MMPano/
(责任编辑:小程序)
- ·一加12和一加Ace3将率先支持黑屏指纹解锁功能
- ·95后提前买金为妈妈庆生反赚近1万:每年都会选购黄金
- ·Gifshift怎么用?如何将GIF转绘成动漫?附Gifshift完整使用教程及产品入口
- ·TSalesforce 领投! Together AI 融资估值飙升至12.5亿美元
- ·iPhone销售额达697亿美元!苹果称大中华区业绩下滑13%
- ·10厘米不满足:男子为长到1米93二次砸断腿骨手术 花57万
- ·大妈忘记银行卡密码:打拍子唱歌回忆
- ·拼多多回应多家店铺销售假五粮液:将严肃处罚
- ·支付宝酒水直播迎集体爆发:3个白酒直播间五福节销售6千万
- ·95后提前买金为妈妈庆生反赚近1万:每年都会选购黄金