视频模型论文精读-摘要上

论文精读·55上 https://www.youtube.com/watch?v=5MGq7dSOghY

介绍了sora,然后大篇幅讲解了数据集提取的过程。下面补充kimi的总结

三、条件生成技术分类

输入类型技术难点代表工作关键创新
文本→视频文本与视觉对齐、复杂场景理解Sora, Lumiere, Movie Gen使用LLM生成详细视频描述作为训练标注
图像→视频保持参考图像ID一致性、合理运动预测EMO, AnimateAnyone, MergeTalkReferenceNet结构保持身份一致,音频驱动表情
音频→视频唇形同步、表情自然度、头部运动EMO, Wav2Lip, DreamTalk弱控制信号(速度层+面部定位器)避免过度约束
视频→视频风格迁移、内容编辑、一致性保持Video Editing, Runway Gen-3基于扩散的编辑保持原视频结构

四、数据工程与训练策略

数据筛选流程(以Stable Video Diffusion为例)

  1. 多阶段训练:文本到图像预训练 → 视频预训练 → 高质量视频微调
  2. 标注策略:使用内部多模态LLM生成详细视频描述,而非简单caption
  3. 过滤策略
    • 美学评分过滤低质量视频
    • 光流分析确保足够运动幅度
    • 文本-视频对齐评分

训练技巧

  • 分阶段训练:先训练图像生成能力,再引入时间模块学习运动
  • CFG(Classifier-Free Guidance):训练时随机丢弃条件(如文本),推理时可调节指导强度
  • 解耦训练:如EMO模型中,速度层与音频层分开训练,避免音频驱动能力被破坏

五、评估指标

表格

指标用途说明
FVD (Fréchet Video Distance)视频整体质量衡量生成视频与真实视频分布差异
FID (Fréchet Inception Distance)单帧质量评估生成帧的视觉保真度
SyncNet唇形同步音频-视频同步性评估
E-FID (Expression-FID)表情丰富度通过3D人脸重建提取表情参数计算
S/S Ratio生成效率计算秒数/视频秒数,实时生成为1.0

六、2024-2025年关键趋势

  1. 实时生成:LTX-2 (Fast)实现<1.0 S/S比率,接近实时生成,开启交互式应用可能
  2. 长视频突破:从秒级到分钟级生成,重点解决角色一致性和情节连贯性
  3. 多模态控制:从纯文本提示向草图、关键帧、相机轨迹、音频等多条件控制演进
  4. 开源追赶:CogVideoX、HunyuanVideo、Mochi等开源模型性能接近闭源商业模型
  5. 专业化细分:虚拟试衣、手术视频生成、数字人对话等垂直领域模型涌现

MovieGen 数据规模概览

表格

数据类型规模说明
图像-文本对O(1B) / 10亿级用于联合训练(Joint Training)
视频-文本对O(100M) / 亿级4-16秒片段,单镜头拍摄
音频数据O(100K)小时包括音效、音乐、语音组合
标注来源LLaMa3-Video (8B & 70B)平均100词详细描述

🔄 数据策划流程(3+1阶段)

MovieGen采用多阶段严格筛选策略,而非简单爬取:

阶段1:视觉过滤(Visual Filtering)

应用6层过滤器确保基础质量

  • 分辨率:最小边≥720px(后提升至768px用于高分辨率训练)
  • 宽高比:60%横屏(16:9) + 40%竖屏(9:16),偏好横屏因其时长更长、运动更稳定
  • OCR过滤:内部OCR模型检测,剔除文字过多的视频(得分>0.6的过滤)
  • 美学评分:使用LAION aesthetics模型,剔除评分<4的片段
  • 边框检测:基于一阶导数扫描算法,检测并剔除带黑边的视频(常见于竖屏转横屏内容)
  • 视觉特效过滤:训练简单模型识别过度后期制作的片段

阶段2:运动过滤(Motion Filtering)

解决视频生成中的”抖动”和”PPT效应”

  • 运动向量分析:使用FFmpeg提取运动向量,剔除静态或PPT式切换视频
  • 抖动检测:PySceneDetect检测镜头边界,剔除>0.85 shots/second的过度抖动片段
  • 场景分割:使用FFmpeg场景检测,从原始视频(平均28秒)提取4-16秒单镜头片段,确保50%以上训练片段时长在6-15秒之间

阶段3:内容过滤(Content Filtering)

  • 语义去重:使用copy detection embeddings(Pizzi et al., 2022)进行视觉去重
  • 聚类采样:在语义空间聚类后采样,避免数据倾斜
  • 人工动词分类:建立600个人类动词和表情分类体系,通过zero-shot检索筛选含人类视频,并保持这些视频的采样频率

阶段4:标注与增强(Captioning)

  • 双模型标注:70%使用LLaMa3-Video 8B,30%使用70B版本,生成平均100词的详细描述
  • 相机运动标注:训练16类相机运动分类器(zoom-out, pan-left等),高置信度预测结果前缀到文本提示中,实现推理时的显式相机控制
  • FPS控制:在文本提示前添加”FPS-16″等token,支持16-32 FPS可变帧率生成

🗂️ 分桶策略(Bucketization)

为处理多宽高比和多时长,MovieGen采用动态分桶而非固定尺寸裁剪

:表格

维度分桶策略
宽高比5个桶(包括横屏、竖屏、方形等),支持1024×576到576×1024
时长5个桶(4s-16s),对应潜在帧数16-32帧
帧率通过FPS token控制,支持16-32 FPS

这种设计允许同一批次(batch)内的视频具有完全相同的潜在空间形状(latent shape),便于并行训练。


👤 个性化视频数据(PT2V)

针对”特定人物生成”任务,MovieGen构建了专门的训练集

  • 筛选标准:从预训练数据中筛选单人脸视频,使用ArcFace计算连续帧相似度(阈值>0.5)
  • 成对数据(Paired):从同一视频中均匀采样5帧作为参考图像,构建O(10M)样本
  • 交叉成对数据(Cross-Paired)
    • 真实数据:O(10K)对,同一人不同视频/视角
    • 合成数据:O(1M)对,使用预训练个性化图像模型生成不同表情/姿态/光照的参考图像(ArcFace相似度>0.7筛选)
  • 目的:防止模型学到”复制粘贴”捷径(即直接复制参考图像的表情和姿态,而非遵循文本指令)

🎵 音频数据策划

MovieGen Audio(13B模型)的数据处理

:表格

音频类型规模筛选标准
纯音效O(100M)使用Audio Event Detection (AED)标签筛选
音乐O(10M)高质量音乐数据
音效+音乐O(10M)混合类型
含语音O(10M)单独处理,避免干扰

质量控制

  • 使用CAVTP(Class-Agnostic Video-Text Pre-training)分数筛选diegetic(画面中可见声源)或mixed音频
  • 优先学习物理音效(物体碰撞、摩擦等),因其错误最明显
  • 剔除含OCR文本、静态画面、低分辨率(<480px)的视频
  • 视频长度限制在4-120秒

🎯 微调阶段数据(Fine-tuning Data)

预训练后,MovieGen使用小规模但更高质量的数据进行微调

  • 人工策划:手动筛选高美学质量、流畅运动的视频
  • 自动过滤:对美学、运动、场景变化设定更严格阈值,剔除小主体视频
  • 概念平衡:使用k-NN方法检索视频,确保600个人类动词/表情分类均衡覆盖
  • 光照与色彩:人工筛选角度光照、鲜艳色彩、无杂乱背景、无VFX的视频
  • 标注精修:人工精修LLaMa生成的标注,选择视频中最具吸引力的片段

💡 数据工程关键创新点

  1. 渐进式质量筛选:从O(100M)原始视频逐步筛选到最终训练集,而非一次性过滤
  2. 合成数据增强:在个性化任务中使用合成数据扩展姿态多样性,解决数据稀缺问题
  3. 多模态标注:结合视觉分类器(相机运动)、LLM(详细描述)、人工审核三层标注体系
  4. 时空联合分桶:统一处理图像和视频数据(1:10比例混合),支持可变时长和宽高比
  5. 任务特定数据构造:针对不同能力(T2V、个性化、编辑、音频)构建专门数据集,而非混用

重点总结:MovieGen的成功不仅源于30B参数的模型规模,更依赖于严格的数据质量控制流程——从10亿级图像和亿级视频中,通过6层视觉过滤、运动过滤、内容去重,最终筛选出高质量子集。这种”质量优于数量”的策略,配合LLaMa3-Video生成的详细标注(平均100词),是其生成质量超越Runway Gen3和Sora的关键因素之一


已发布

分类

来自

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注