论文精读·55上 https://www.youtube.com/watch?v=5MGq7dSOghY
介绍了sora,然后大篇幅讲解了数据集提取的过程。下面补充kimi的总结
三、条件生成技术分类
| 输入类型 | 技术难点 | 代表工作 | 关键创新 |
|---|---|---|---|
| 文本→视频 | 文本与视觉对齐、复杂场景理解 | Sora, Lumiere, Movie Gen | 使用LLM生成详细视频描述作为训练标注 |
| 图像→视频 | 保持参考图像ID一致性、合理运动预测 | EMO, AnimateAnyone, MergeTalk | ReferenceNet结构保持身份一致,音频驱动表情 |
| 音频→视频 | 唇形同步、表情自然度、头部运动 | EMO, Wav2Lip, DreamTalk | 弱控制信号(速度层+面部定位器)避免过度约束 |
| 视频→视频 | 风格迁移、内容编辑、一致性保持 | Video Editing, Runway Gen-3 | 基于扩散的编辑保持原视频结构 |
四、数据工程与训练策略
数据筛选流程(以Stable Video Diffusion为例):
- 多阶段训练:文本到图像预训练 → 视频预训练 → 高质量视频微调
- 标注策略:使用内部多模态LLM生成详细视频描述,而非简单caption
- 过滤策略:
- 美学评分过滤低质量视频
- 光流分析确保足够运动幅度
- 文本-视频对齐评分
训练技巧:
- 分阶段训练:先训练图像生成能力,再引入时间模块学习运动
- CFG(Classifier-Free Guidance):训练时随机丢弃条件(如文本),推理时可调节指导强度
- 解耦训练:如EMO模型中,速度层与音频层分开训练,避免音频驱动能力被破坏
五、评估指标
表格
| 指标 | 用途 | 说明 |
|---|---|---|
| FVD (Fréchet Video Distance) | 视频整体质量 | 衡量生成视频与真实视频分布差异 |
| FID (Fréchet Inception Distance) | 单帧质量 | 评估生成帧的视觉保真度 |
| SyncNet | 唇形同步 | 音频-视频同步性评估 |
| E-FID (Expression-FID) | 表情丰富度 | 通过3D人脸重建提取表情参数计算 |
| S/S Ratio | 生成效率 | 计算秒数/视频秒数,实时生成为1.0 |
六、2024-2025年关键趋势
- 实时生成:LTX-2 (Fast)实现<1.0 S/S比率,接近实时生成,开启交互式应用可能
- 长视频突破:从秒级到分钟级生成,重点解决角色一致性和情节连贯性
- 多模态控制:从纯文本提示向草图、关键帧、相机轨迹、音频等多条件控制演进
- 开源追赶:CogVideoX、HunyuanVideo、Mochi等开源模型性能接近闭源商业模型
- 专业化细分:虚拟试衣、手术视频生成、数字人对话等垂直领域模型涌现
MovieGen 数据规模概览
表格
| 数据类型 | 规模 | 说明 |
|---|---|---|
| 图像-文本对 | O(1B) / 10亿级 | 用于联合训练(Joint Training) |
| 视频-文本对 | O(100M) / 亿级 | 4-16秒片段,单镜头拍摄 |
| 音频数据 | O(100K)小时 | 包括音效、音乐、语音组合 |
| 标注来源 | LLaMa3-Video (8B & 70B) | 平均100词详细描述 |
🔄 数据策划流程(3+1阶段)
MovieGen采用多阶段严格筛选策略,而非简单爬取:
阶段1:视觉过滤(Visual Filtering)
应用6层过滤器确保基础质量
:
- 分辨率:最小边≥720px(后提升至768px用于高分辨率训练)
- 宽高比:60%横屏(16:9) + 40%竖屏(9:16),偏好横屏因其时长更长、运动更稳定
- OCR过滤:内部OCR模型检测,剔除文字过多的视频(得分>0.6的过滤)
- 美学评分:使用LAION aesthetics模型,剔除评分<4的片段
- 边框检测:基于一阶导数扫描算法,检测并剔除带黑边的视频(常见于竖屏转横屏内容)
- 视觉特效过滤:训练简单模型识别过度后期制作的片段
阶段2:运动过滤(Motion Filtering)
解决视频生成中的”抖动”和”PPT效应”
:
- 运动向量分析:使用FFmpeg提取运动向量,剔除静态或PPT式切换视频
- 抖动检测:PySceneDetect检测镜头边界,剔除>0.85 shots/second的过度抖动片段
- 场景分割:使用FFmpeg场景检测,从原始视频(平均28秒)提取4-16秒单镜头片段,确保50%以上训练片段时长在6-15秒之间
阶段3:内容过滤(Content Filtering)
- 语义去重:使用copy detection embeddings(Pizzi et al., 2022)进行视觉去重
- 聚类采样:在语义空间聚类后采样,避免数据倾斜
- 人工动词分类:建立600个人类动词和表情分类体系,通过zero-shot检索筛选含人类视频,并保持这些视频的采样频率
阶段4:标注与增强(Captioning)
- 双模型标注:70%使用LLaMa3-Video 8B,30%使用70B版本,生成平均100词的详细描述
- 相机运动标注:训练16类相机运动分类器(zoom-out, pan-left等),高置信度预测结果前缀到文本提示中,实现推理时的显式相机控制
- FPS控制:在文本提示前添加”FPS-16″等token,支持16-32 FPS可变帧率生成
🗂️ 分桶策略(Bucketization)
为处理多宽高比和多时长,MovieGen采用动态分桶而非固定尺寸裁剪
:表格
| 维度 | 分桶策略 |
|---|---|
| 宽高比 | 5个桶(包括横屏、竖屏、方形等),支持1024×576到576×1024 |
| 时长 | 5个桶(4s-16s),对应潜在帧数16-32帧 |
| 帧率 | 通过FPS token控制,支持16-32 FPS |
这种设计允许同一批次(batch)内的视频具有完全相同的潜在空间形状(latent shape),便于并行训练。
👤 个性化视频数据(PT2V)
针对”特定人物生成”任务,MovieGen构建了专门的训练集
:
- 筛选标准:从预训练数据中筛选单人脸视频,使用ArcFace计算连续帧相似度(阈值>0.5)
- 成对数据(Paired):从同一视频中均匀采样5帧作为参考图像,构建O(10M)样本
- 交叉成对数据(Cross-Paired):
- 真实数据:O(10K)对,同一人不同视频/视角
- 合成数据:O(1M)对,使用预训练个性化图像模型生成不同表情/姿态/光照的参考图像(ArcFace相似度>0.7筛选)
- 目的:防止模型学到”复制粘贴”捷径(即直接复制参考图像的表情和姿态,而非遵循文本指令)
🎵 音频数据策划
MovieGen Audio(13B模型)的数据处理
:表格
| 音频类型 | 规模 | 筛选标准 |
|---|---|---|
| 纯音效 | O(100M) | 使用Audio Event Detection (AED)标签筛选 |
| 音乐 | O(10M) | 高质量音乐数据 |
| 音效+音乐 | O(10M) | 混合类型 |
| 含语音 | O(10M) | 单独处理,避免干扰 |
质量控制:
- 使用CAVTP(Class-Agnostic Video-Text Pre-training)分数筛选diegetic(画面中可见声源)或mixed音频
- 优先学习物理音效(物体碰撞、摩擦等),因其错误最明显
- 剔除含OCR文本、静态画面、低分辨率(<480px)的视频
- 视频长度限制在4-120秒
🎯 微调阶段数据(Fine-tuning Data)
预训练后,MovieGen使用小规模但更高质量的数据进行微调
:
- 人工策划:手动筛选高美学质量、流畅运动的视频
- 自动过滤:对美学、运动、场景变化设定更严格阈值,剔除小主体视频
- 概念平衡:使用k-NN方法检索视频,确保600个人类动词/表情分类均衡覆盖
- 光照与色彩:人工筛选角度光照、鲜艳色彩、无杂乱背景、无VFX的视频
- 标注精修:人工精修LLaMa生成的标注,选择视频中最具吸引力的片段
💡 数据工程关键创新点
- 渐进式质量筛选:从O(100M)原始视频逐步筛选到最终训练集,而非一次性过滤
- 合成数据增强:在个性化任务中使用合成数据扩展姿态多样性,解决数据稀缺问题
- 多模态标注:结合视觉分类器(相机运动)、LLM(详细描述)、人工审核三层标注体系
- 时空联合分桶:统一处理图像和视频数据(1:10比例混合),支持可变时长和宽高比
- 任务特定数据构造:针对不同能力(T2V、个性化、编辑、音频)构建专门数据集,而非混用
重点总结:MovieGen的成功不仅源于30B参数的模型规模,更依赖于严格的数据质量控制流程——从10亿级图像和亿级视频中,通过6层视觉过滤、运动过滤、内容去重,最终筛选出高质量子集。这种”质量优于数量”的策略,配合LLaMa3-Video生成的详细标注(平均100词),是其生成质量超越Runway Gen3和Sora的关键因素之一
。
发表回复