文本到视频关键技术解读

14 人参与

当你在Runway上输入“一只穿着宇航服的柯基犬漫步在月球表面”,几秒钟后,一段高清、流畅且想象力爆棚的视频便跃然眼前时,那种近乎魔法的体验背后,是一系列复杂而精密的AI技术引擎在轰鸣。文本到视频(Text-to-Video)技术,这个AIGC领域公认的“圣杯”,其核心远不止是把文生图模型简单拉长。它是一场对物理世界动力学、时间连续性和人类叙事逻辑的深刻建模。

核心引擎:从静态“画布”到动态“时空”

一切的基础是扩散模型(Diffusion Models)。你可以把它想象成一个拥有顶级艺术鉴赏力的“净化器”。训练时,它被反复“喂食”海量的视频帧,并学习如何在一步步加入噪声破坏画面后,再一步步逆向去噪,还原出原始画面。关键在于,这个过程不仅要学会还原单帧的像素,更要捕捉帧与帧之间像素点运动的微妙关联——也就是光流(Optical Flow)。Sora的技术报告里隐晦地提到了这一点,他们很可能使用了“时空补丁”(Spacetime Patches)而非单纯的图像补丁作为训练单元,这使得模型天生就理解物体在时间维度上应该如何合理变化。

一致性难题:如何让角色不“精神分裂”?

早期文生视频最被人诟病的就是“闪烁”和“变形”。视频里的人物可能每秒钟都在换发型、换衣服,甚至换张脸。这背后是帧间一致性(Temporal Consistency)的挑战。目前的主流解法有几条路径。

  • 隐空间锚定:在生成第一帧或关键帧后,将其在模型隐空间(Latent Space)中的编码向量作为“锚点”,在生成后续帧时,强制模型参考这个锚点,确保角色或场景的核心特征编码不漂移。
  • 跨帧注意力机制:这或许是更优雅的方案。模型在生成每一帧时,不仅仅关注当前的文本提示词,还会通过注意力机制“回头看”前面已生成的若干帧,计算它们之间的特征相似性,从而在生成新内容时主动维持一致性。这就好比画家在画连环画时,会不断翻看前一页来确保人物形象统一。
  • 3D先验知识注入:一些前沿研究尝试将3D重建或神经辐射场(NeRF)的思想引入。模型在内部隐式地构建一个简易的3D场景表示,这样,当“镜头”移动时,物体各个角度的变化就符合物理规律,而不是凭空扭曲。

可控性与构图:AI导演的“分镜脚本”

仅仅生成一段连贯视频还不够,商业应用需要精确控制。这就涉及到条件生成技术。除了文本提示词这个“总编剧”,我们还可以输入其他形式的“分镜脚本”:

  • 姿态/深度图控制:上传一张人物姿态图或场景深度图,模型会严格遵循图中的结构和空间关系来生成视频内容。这对于需要特定动作或镜头景深的广告制作至关重要。
  • 参考图像驱动:给一张图片,要求“让这个角色动起来”。这通常通过将参考图像编码并与文本编码融合来实现,是数字人快速动画化的关键技术之一。
  • 运动笔刷(Motion Brush):像Runway的Gen-2提供的功能,允许用户在静态图像的特定区域上“刷”出运动方向,实现局部动画。这背后是区域性的运动向量控制技术。

数据与算力:看不见的冰山

所有上述精巧的模型设计,都建立在一个庞大得令人窒息的基础之上:高质量、强标注的視頻训练数据,以及足以融化钢铁的算力消耗。OpenAI从未公开Sora的训练细节,但业界推测其训练数据可能包含了巨量的带详细文本描述的合成视频(如游戏引擎生成)、经过精心标注的影视素材,甚至结合了物理仿真引擎的数据。清洗、标注和组织这些数据,其工程复杂度和成本,可能不亚于模型架构设计本身。

而一次模型训练动辄需要数千甚至上万张顶级GPU运行数周,电力成本和碳排放是一个无法回避的现实问题。这解释了为什么目前顶尖的文生视频模型都出自少数几家资源最雄厚的实验室。技术壁垒,正在从算法创新,快速转向数据和算力的“军备竞赛”。

所以,下次当你惊叹于AI生成的视频时,不妨想象一下这幅图景:在硅基世界的深处,一个由数万亿参数构成的“大脑”,正咀嚼着海量的时空碎片,努力理解着我们用寥寥数语描述的那个动态世界。它还在学步,但每一步,都踏在重塑视觉叙事规则的路径上。

参与讨论

14 条评论