会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 英特尔团队提出L-MAGIC新技术 通过结合语言模型让图像扩散模型生成高质量360度场景!

英特尔团队提出L-MAGIC新技术 通过结合语言模型让图像扩散模型生成高质量360度场景

时间:2024-07-04 05:16:18 来源:带水拖泥网 作者:知识 阅读:906次

英特尔团队提出L-MAGIC新技术 通过结合语言模型让图像扩散模型生成高质量360度场景

CSS站长资源(ChinaZ.com)6月11日 消息:在CVPR2024上,英特语美国英特尔研究院的尔团蔡志鹏博士及其团队提出了一种名为L-MAGIC(Language Model Assisted Generation of Images with Coherence)的新技术。这项技术通过结合语言模型和图像扩散模型,队提度场实现了高质量、出L成高多模态、新像扩型生零样本泛化的技术结合景360度场景生成。

核心特点:

  • 结合语言模型和扩散模型:L-MAGIC利用自然图像连接不同模态的通过输入,并通过条件扩散模型如ControlNet从各种模态输入生成自然图像。模型

  • 迭代变形和填充:在获得自然图像后,让图L-MAGIC通过迭代变形(warping)和填充(inpainting)生成360度场景的散模多个视角,使用基于扩散的质量图像填充模型(如Stable Diffusion v2)生成缺失像素。

  • 语言模型控制:L-MAGIC使用语言模型自动控制扩散模型,英特语根据每个视角需要生成的尔团场景内容,有效保持语言及扩散模型的队提度场泛化性。

  • 多样化场景生成:L-MAGIC能够生成多样化的出L成高全局场景结构,无需微调,从而实现多样化场景的高质量生成。

  • 多模态输入:除了自然图像,L-MAGIC还能接受文字、手绘草图、深度图等多种模态的输入。

实验结果表明:

L-MAGIC在图像到360度场景生成及文字到360度场景生成任务中均达到了SOTA(State of the Art)。

能够生成具有多样化360度场景结构的全景图,并且能够平滑地完成360度闭环。

除了文字和自然图像,L-MAGIC还能够使用ControlNet接受多样化的输入,如深度图、设计草图等。

技术应用:

L-MAGIC还能够利用深度估计模型生成场景的沉浸式视频和三维点云,为场景理解和可视化提供了更多可能性。

项目主页:https://zhipengcai.github.io/MMPano/

(责任编辑:小程序)

相关内容
  • 熊孩子玩手机 把导航从回江西换到福建:多开了200多公里
  • 今日AI:Sora计划在今年内发布;辛巴要暂停带货学AI;国产Sora文生视频工具Etna发布;谷歌推EMO同款对口型工具;
  • 蔚来与宁德时代签署长寿命电池研发项目合作协议
  • 对标Sora?国产公司推文生视频工具Etna 能生成15秒4K视频
  • 广州鼓励网约车去机场火车站接单 确保旅客出行顺畅
  • 一加Ace 3V实拍图曝光,首发骁龙7 Gen3
  • 辛巴称计划暂停带货去学习AI:「直播带货」AI应用有哪些?
  • 微博AI评论机器人“评论罗伯特”宣布支持楼中楼回复
推荐内容
  • 苹果最后一款带光驱的MacBook停产:停止发售超7年
  • 李佳琦董宇辉等17名主播被点名 「直播带货」AI应用有哪些?
  • 书亦烧仙草被点名饮品已改名:配方等方面保持一致
  • 全球!欧洲议会正式批准欧盟《人工智能法案》
  • 微软XGP史上第三方!《幻兽帕鲁》玩家数突破1900万
  • 李佳琦董宇辉等17名主播被点名:你直播购物维权过没