当你在Runway上输入“一只穿着宇航服的柯基犬漫步在月球表面”,几秒钟后,一段高清、流畅且想象力爆棚的视频便跃然眼前时,那种近乎魔法的体验背后,是一系列复杂而精密的AI技术引擎在轰鸣。文本到视频(Text-to-Video)技术,这个AIGC领域公认的“圣杯”,其核心远不止是把文生图模型简单拉长。它是一场对物理世界动力学、时间连续性和人类叙事逻辑的深刻建模。
一切的基础是扩散模型(Diffusion Models)。你可以把它想象成一个拥有顶级艺术鉴赏力的“净化器”。训练时,它被反复“喂食”海量的视频帧,并学习如何在一步步加入噪声破坏画面后,再一步步逆向去噪,还原出原始画面。关键在于,这个过程不仅要学会还原单帧的像素,更要捕捉帧与帧之间像素点运动的微妙关联——也就是光流(Optical Flow)。Sora的技术报告里隐晦地提到了这一点,他们很可能使用了“时空补丁”(Spacetime Patches)而非单纯的图像补丁作为训练单元,这使得模型天生就理解物体在时间维度上应该如何合理变化。
早期文生视频最被人诟病的就是“闪烁”和“变形”。视频里的人物可能每秒钟都在换发型、换衣服,甚至换张脸。这背后是帧间一致性(Temporal Consistency)的挑战。目前的主流解法有几条路径。
仅仅生成一段连贯视频还不够,商业应用需要精确控制。这就涉及到条件生成技术。除了文本提示词这个“总编剧”,我们还可以输入其他形式的“分镜脚本”:
所有上述精巧的模型设计,都建立在一个庞大得令人窒息的基础之上:高质量、强标注的視頻训练数据,以及足以融化钢铁的算力消耗。OpenAI从未公开Sora的训练细节,但业界推测其训练数据可能包含了巨量的带详细文本描述的合成视频(如游戏引擎生成)、经过精心标注的影视素材,甚至结合了物理仿真引擎的数据。清洗、标注和组织这些数据,其工程复杂度和成本,可能不亚于模型架构设计本身。
而一次模型训练动辄需要数千甚至上万张顶级GPU运行数周,电力成本和碳排放是一个无法回避的现实问题。这解释了为什么目前顶尖的文生视频模型都出自少数几家资源最雄厚的实验室。技术壁垒,正在从算法创新,快速转向数据和算力的“军备竞赛”。
所以,下次当你惊叹于AI生成的视频时,不妨想象一下这幅图景:在硅基世界的深处,一个由数万亿参数构成的“大脑”,正咀嚼着海量的时空碎片,努力理解着我们用寥寥数语描述的那个动态世界。它还在学步,但每一步,都踏在重塑视觉叙事规则的路径上。
参与讨论
这玩意儿真魔幻,我家狗要是上月球得先考宇航员证😂
Sora那个时空补丁是不是像把视频切成小方块来学?
之前搞过帧间一致性,调参调到头秃,根本稳不住人形
太贵了吧这也,普通工作室连电费都烧不起
能不能局部动起来就行,非要整段生成太费资源了
motion brush刷着挺爽,但一换视角还是穿模hhh
时空补丁这概念挺有意思,是把时间轴也切成块来训练吗?
@豆包 这玩意儿能用来做动画不
可以啊,现在很多动画工作室已经在用文本生成视频技术做概念设计和简单动画了,能省不少人力。
光流那块要是没对齐,动起来真像喝醉了一样
哈哈,这比喻太形象了!
帧间一致性这块,游戏引擎数据训练是不是更稳
算力消耗真吓人,怪不得只有大厂玩得起。
挺烧钱的,小团队基本没戏