大佬拆解Sora工作原理 看完你就知道Sora为什么这么牛了
CSS站长资源(ChinaZ.com)2月21日 消息:Sora是大佬一款独特的视频生成工具,其工作原理深入浅出,拆解值得我们深入了解。工作something new/old创始人brett goldstein在X上给大家拆解了Sora工作原理,原理通俗易懂。看完
Sora的知道工作原理结合了扩散模型和Transformer架构。扩散模型从噪声开始,大佬逐渐精细化到所需的拆解视频。而Transformer架构则负责处理连续的工作视频帧,确保视频中的原理动作流畅自然。
Sora的看完独特之处在于其处理视频生成的方法。它不是知道直接将文本转换为视频帧,而是大佬依赖于所谓的“空间时间补丁”。这种方法不直接将文本转换为视频帧,拆解而是工作处理空间(发生的事情)和时间(何时发生)的快照。这可以看作是微观视频拼图的每一小块。
时空立方体:
通过这种方式,Sora将视频视为一个包含空间和时间维度的巨大立方体,然后再将其切割成更小的立方体,每个立方体代表空间和时间的片段。
剖析描述并确定了核心要素:
• 物体(盛开的花朵、阳光普照的窗台)
• 行动(随着时间的推移而增长)
• 位置(郊区环境)
• 甚至艺术风格(定格动画美学)
为了能够将这些补丁有意义地组合成一个连贯的视频,Sora利用了其内部的知识图谱。这些知识图谱包含了关于物理世界、对象如何相互作用,甚至包括不同艺术风格的信息。借助这些知识,Sora能够理解例如一朵花如何逐渐开放、如何与阳光互动以及如何保持停动画风格等复杂过程。
在视频生成的下一阶段,扩散模型开始对每个嘈杂、抽象的补丁进行处理,逐渐精细化,直至最终呈现出清晰的图像。而Transformer架构则负责分析时间跨度上补丁之间的关系,确保视频中的动作流畅自然,停动画风格在整个视频序列中保持一致。
尽管Sora能够执行各种与视频相关的任务,并展现出惊人的视频生成能力,但仍有一些挑战需要克服。例如,它在模拟一些基础物理互动的精确性方面还有待提高,有时会产生不自然的效果,如人物的手势看起来不够真实。尽管如此,Sora在视频生成技术方面展示了巨大的潜力,为未来的人工智能应用开辟了新的可能性。
拆解原文地址:https://twitter.com/thatguybg/status/1759935959792312461
猜你想看:
Sora怎么用?sora提示词大全:超100个Sora专属提示词
sora怎么用?sora从哪里下载?sora提示词教程 附30个sora提示词案例
Sora怎么用?附详细Prompts及使用入口地址
(责任编辑:知识)
- ·营收占比 7%,库克谈欧洲App Store新规:竭尽所能保护用户隐私
- ·《庆余年2》预约破1500万 官方公布张若昀、李沁同框CP视频
- ·阿里巴巴杭州全球总部正式启用:空中俯瞰是一个笑脸花园
- ·乐视辟谣《甄嬛传》综艺播出:非官方授权
- ·ARC浏览器发布了2个好用功能 彻底改变传统搜索模式
- ·1个月涨粉208万!一张嘴骂遍了国外文旅,却在抖音和视频号上爆火?
- ·《英雄联盟》2024 MSI胜败分组赛:PSG第二局逆风翻盘战胜BLG
- ·换你来当爹官网入口 换你来当爹AI游戏网页版在线体验入口
- ·“Linux 中国” 开源社区宣布停止运营
- ·女子挂P挡开不动车 导致道路拥堵十分钟:我在玩手机不知道啥挡
- ·决战拜年之巅!你能经受住AI七大姑八大姨的灵魂拷问吗?
- ·周鸿祎谈璩静事件:企业打造IP交学费在所难免
- ·百度高管称舆论的喧嚣总会过去 将捍卫百度文化
- ·公司回应请“山寨周杰伦”代言:正处于试生产试销阶段
- ·支持534种语言,开源大语言模型MaLA-500
- ·为何不反抗!苹果在中国1年收400亿苹果税:抽佣率仍为全球标准
- ·上海00后中奖100万实现局部退休 依靠存款利息开销
- ·法国AI初创公司 Mistral AI 估值 60 亿美元
- ·贾扬清的500行代码,掀翻了Perplexity5.2亿的桌子?
- ·AI日报:SD3、SVD可以在Discord使用了;ElevenLabs Music发布;AI游戏让你无痛当爹;调光大师IC-Light ComfyUI节点发布