视频模型论文精读-摘要上

论文精读·55上 https://www.youtube.com/watch?v=5MGq7dSOghY

介绍了sora，然后大篇幅讲解了数据集提取的过程。下面补充kimi的总结

三、条件生成技术分类

输入类型	技术难点	代表工作	关键创新
文本→视频	文本与视觉对齐、复杂场景理解	Sora, Lumiere, Movie Gen	使用LLM生成详细视频描述作为训练标注
图像→视频	保持参考图像ID一致性、合理运动预测	EMO, AnimateAnyone, MergeTalk	ReferenceNet结构保持身份一致，音频驱动表情
音频→视频	唇形同步、表情自然度、头部运动	EMO, Wav2Lip, DreamTalk	弱控制信号（速度层+面部定位器）避免过度约束
视频→视频	风格迁移、内容编辑、一致性保持	Video Editing, Runway Gen-3	基于扩散的编辑保持原视频结构

四、数据工程与训练策略

数据筛选流程（以Stable Video Diffusion为例）：

多阶段训练：文本到图像预训练 → 视频预训练 → 高质量视频微调
标注策略：使用内部多模态LLM生成详细视频描述，而非简单caption
过滤策略：
- 美学评分过滤低质量视频
- 光流分析确保足够运动幅度
- 文本-视频对齐评分

训练技巧：

分阶段训练：先训练图像生成能力，再引入时间模块学习运动
CFG（Classifier-Free Guidance）：训练时随机丢弃条件（如文本），推理时可调节指导强度
解耦训练：如EMO模型中，速度层与音频层分开训练，避免音频驱动能力被破坏

五、评估指标

表格

指标	用途	说明
FVD (Fréchet Video Distance)	视频整体质量	衡量生成视频与真实视频分布差异
FID (Fréchet Inception Distance)	单帧质量	评估生成帧的视觉保真度
SyncNet	唇形同步	音频-视频同步性评估
E-FID (Expression-FID)	表情丰富度	通过3D人脸重建提取表情参数计算
S/S Ratio	生成效率	计算秒数/视频秒数，实时生成为1.0

六、2024-2025年关键趋势

实时生成：LTX-2 (Fast)实现<1.0 S/S比率，接近实时生成，开启交互式应用可能
长视频突破：从秒级到分钟级生成，重点解决角色一致性和情节连贯性
多模态控制：从纯文本提示向草图、关键帧、相机轨迹、音频等多条件控制演进
开源追赶：CogVideoX、HunyuanVideo、Mochi等开源模型性能接近闭源商业模型
专业化细分：虚拟试衣、手术视频生成、数字人对话等垂直领域模型涌现

MovieGen 数据规模概览

表格

数据类型	规模	说明
图像-文本对	O(1B) / 10亿级	用于联合训练（Joint Training）
视频-文本对	O(100M) / 亿级	4-16秒片段，单镜头拍摄
音频数据	O(100K)小时	包括音效、音乐、语音组合
标注来源	LLaMa3-Video (8B & 70B)	平均100词详细描述

🔄 数据策划流程（3+1阶段）

MovieGen采用多阶段严格筛选策略，而非简单爬取：

阶段1：视觉过滤（Visual Filtering）

应用6层过滤器确保基础质量

：

分辨率：最小边≥720px（后提升至768px用于高分辨率训练）
宽高比：60%横屏(16:9) + 40%竖屏(9:16)，偏好横屏因其时长更长、运动更稳定
OCR过滤：内部OCR模型检测，剔除文字过多的视频（得分>0.6的过滤）
美学评分：使用LAION aesthetics模型，剔除评分<4的片段
边框检测：基于一阶导数扫描算法，检测并剔除带黑边的视频（常见于竖屏转横屏内容）
视觉特效过滤：训练简单模型识别过度后期制作的片段

阶段2：运动过滤（Motion Filtering）

解决视频生成中的”抖动”和”PPT效应”

：

运动向量分析：使用FFmpeg提取运动向量，剔除静态或PPT式切换视频
抖动检测：PySceneDetect检测镜头边界，剔除>0.85 shots/second的过度抖动片段
场景分割：使用FFmpeg场景检测，从原始视频（平均28秒）提取4-16秒单镜头片段，确保50%以上训练片段时长在6-15秒之间

阶段3：内容过滤（Content Filtering）

语义去重：使用copy detection embeddings（Pizzi et al., 2022）进行视觉去重
聚类采样：在语义空间聚类后采样，避免数据倾斜
人工动词分类：建立600个人类动词和表情分类体系，通过zero-shot检索筛选含人类视频，并保持这些视频的采样频率

阶段4：标注与增强（Captioning）

双模型标注：70%使用LLaMa3-Video 8B，30%使用70B版本，生成平均100词的详细描述
相机运动标注：训练16类相机运动分类器（zoom-out, pan-left等），高置信度预测结果前缀到文本提示中，实现推理时的显式相机控制
FPS控制：在文本提示前添加”FPS-16″等token，支持16-32 FPS可变帧率生成

🗂️ 分桶策略（Bucketization）

为处理多宽高比和多时长，MovieGen采用动态分桶而非固定尺寸裁剪

：表格

维度	分桶策略
宽高比	5个桶（包括横屏、竖屏、方形等），支持1024×576到576×1024
时长	5个桶（4s-16s），对应潜在帧数16-32帧
帧率	通过FPS token控制，支持16-32 FPS

这种设计允许同一批次（batch）内的视频具有完全相同的潜在空间形状（latent shape），便于并行训练。

👤 个性化视频数据（PT2V）

针对”特定人物生成”任务，MovieGen构建了专门的训练集

：

筛选标准：从预训练数据中筛选单人脸视频，使用ArcFace计算连续帧相似度（阈值>0.5）
成对数据（Paired）：从同一视频中均匀采样5帧作为参考图像，构建O(10M)样本
交叉成对数据（Cross-Paired）：
- 真实数据：O(10K)对，同一人不同视频/视角
- 合成数据：O(1M)对，使用预训练个性化图像模型生成不同表情/姿态/光照的参考图像（ArcFace相似度>0.7筛选）
目的：防止模型学到”复制粘贴”捷径（即直接复制参考图像的表情和姿态，而非遵循文本指令）

🎵 音频数据策划

MovieGen Audio（13B模型）的数据处理

：表格

音频类型	规模	筛选标准
纯音效	O(100M)	使用Audio Event Detection (AED)标签筛选
音乐	O(10M)	高质量音乐数据
音效+音乐	O(10M)	混合类型
含语音	O(10M)	单独处理，避免干扰

质量控制：

使用CAVTP（Class-Agnostic Video-Text Pre-training）分数筛选diegetic（画面中可见声源）或mixed音频
优先学习物理音效（物体碰撞、摩擦等），因其错误最明显
剔除含OCR文本、静态画面、低分辨率(<480px)的视频
视频长度限制在4-120秒

🎯 微调阶段数据（Fine-tuning Data）

预训练后，MovieGen使用小规模但更高质量的数据进行微调

：

人工策划：手动筛选高美学质量、流畅运动的视频
自动过滤：对美学、运动、场景变化设定更严格阈值，剔除小主体视频
概念平衡：使用k-NN方法检索视频，确保600个人类动词/表情分类均衡覆盖
光照与色彩：人工筛选角度光照、鲜艳色彩、无杂乱背景、无VFX的视频
标注精修：人工精修LLaMa生成的标注，选择视频中最具吸引力的片段

💡 数据工程关键创新点

渐进式质量筛选：从O(100M)原始视频逐步筛选到最终训练集，而非一次性过滤
合成数据增强：在个性化任务中使用合成数据扩展姿态多样性，解决数据稀缺问题
多模态标注：结合视觉分类器（相机运动）、LLM（详细描述）、人工审核三层标注体系
时空联合分桶：统一处理图像和视频数据（1:10比例混合），支持可变时长和宽高比
任务特定数据构造：针对不同能力（T2V、个性化、编辑、音频）构建专门数据集，而非混用

重点总结：MovieGen的成功不仅源于30B参数的模型规模，更依赖于严格的数据质量控制流程——从10亿级图像和亿级视频中，通过6层视觉过滤、运动过滤、内容去重，最终筛选出高质量子集。这种”质量优于数量”的策略，配合LLaMa3-Video生成的详细标注（平均100词），是其生成质量超越Runway Gen3和Sora的关键因素之一

。

已发布

2026年3月4日

分类

来自

song

标签：

AI Times –AI 时代，中年人倔强的记录

视频模型论文精读-摘要上

四、数据工程与训练策略

数据筛选流程（以Stable Video Diffusion为例）：

训练技巧：

五、评估指标

六、2024-2025年关键趋势

MovieGen 数据规模概览

🔄 数据策划流程（3+1阶段）

阶段1：视觉过滤（Visual Filtering）

阶段2：运动过滤（Motion Filtering）

阶段3：内容过滤（Content Filtering）

阶段4：标注与增强（Captioning）

🗂️ 分桶策略（Bucketization）

👤 个性化视频数据（PT2V）

🎵 音频数据策划

🎯 微调阶段数据（Fine-tuning Data）

💡 数据工程关键创新点

评论

发表回复取消回复

视频模型论文精读-摘要上

四、数据工程与训练策略

数据筛选流程（以Stable Video Diffusion为例）：

训练技巧：

五、评估指标

六、2024-2025年关键趋势

MovieGen 数据规模概览

🔄 数据策划流程（3+1阶段）

阶段1：视觉过滤（Visual Filtering）

阶段2：运动过滤（Motion Filtering）

阶段3：内容过滤（Content Filtering）

阶段4：标注与增强（Captioning）

🗂️ 分桶策略（Bucketization）

👤 个性化视频数据（PT2V）

🎵 音频数据策划

🎯 微调阶段数据（Fine-tuning Data）

💡 数据工程关键创新点

评论

发表回复 取消回复

发表回复取消回复