论文总结:《Video models are zero-shot learners and reasoners》
基本信息
- 标题:视频模型是零样本学习者和推理器
- 作者:Robert Geirhos 等
- 发表:arXiv, 2025年9月
- 核心:首次系统性展示视频生成模型(Veo 3)作为通用视觉基础模型的潜力
核心观点
这篇论文提出了一个重要命题:像 Veo 3 这样的 视频生成模型不仅仅是视频生成器,它们正在演变为通用的视觉基础模型,具备强大的零样本学习和初步的视觉推理能力。
类比:就像 LLM 在文本任务上展现出的通用性一样,视频模型可能也在走向类似的通用视觉理解之路。
主要实验与发现
论文测试了 Veo 3 在 10+ 个不同视觉任务上的表现,这些任务都不是它明确训练过的:表格
复制
| 任务类别 | 具体任务 | 能力体现 |
|---|---|---|
| 视觉理解 | 语义分割、边缘检测、深度估计、法向量估计 | 理解图像的语义结构和几何信息 |
| 物理理解 | 判断物体是否易碎/可滚动/可拉伸 | 从视觉外观推断物理属性 |
| 功能理解 | 识别物体可供性(affordance) | 理解物体的功能和潜在用途 |
| 视觉操作 | 图像编辑(替换/移除对象)、风格转换 | 精确操控视觉内容 |
| 物理模拟 | 模拟工具使用(剪草、敲钉子、榨汁) | 模拟动态物理交互 |
| 视觉推理 | 迷宫求解、对称群判断 | 基于视觉信息进行推理和决策 |
关键发现:
- 零样本能力惊人:无需微调,仅通过设计合适的提示词(prompt)就能完成上述任务
- 多模态理解:能将自然语言指令与视觉内容精确对应
- 初步推理能力:能进行简单的规划和决策(如迷宫路径规划)
- 一致性:生成结果稳定可靠,优于许多专用模型
方法
- 核心技巧:“Video-as-Prompt”
- 将输入图像作为第一帧
- 通过文本提示描述期望的变换/分析/模拟
- 让模型生成后续帧来实现任务
示例:
- 分割任务:提示 “A person is segmenting the dog by painting over it in red”
- 物理模拟:提示 “A pair of scissors is cutting through the grass”
影响与意义
- 范式转变:视频模型可能取代专用视觉模型,成为通用视觉理解引擎
- 新评估维度:需要重新思考如何评估”通用视觉模型”
- 应用前景:统一的模型可简化视觉AI系统开发
局限与未来工作
- 定量评估有限:目前主要是定性展示,缺乏大规模定量评测
- 计算成本:视频模型通常比专用模型更昂贵
- 理论理解不足:对其内部机制的理解还很初步
- 扩展性问题:能力是否随模型规模持续提升尚需验证
总结
这篇论文是一个概念性验证,它表明:
视频生成模型不仅仅是生成工具,它们正在成长为能够理解、分析和推理视觉世界的通用智能体。
这为未来统一的视觉-语言-动作模型铺平了道路,类似于 LLM 统一了 NLP 领域。如果这一趋势继续,我们可能会看到”视频模型时代的 ImageNet时刻”。
一、核心思想:视频模型的”GPT-3时刻”
1.1 历史类比与范式洞察
论文开篇就点破天机:NLP领域从专用模型(翻译、问答、摘要各用各的)到统一LLM的转变,源于三个简单要素:
- 大规模模型(scale)
- 生成式训练(generative objective)
- 互联网级数据(web-scale data)
作者发现:视频模型正在复刻完全相同的配方。Veo、Sora等模型训练目标很简单——”根据文本生成下一帧”,但就像”预测下一个token”催生了通用语言理解,”预测下一帧”可能正在催生通用视觉理解。
核心论断:视频模型不是简单的”视频生成器”,而是视觉世界的通用模拟器。
1.2 极简方法论:Video-as-Prompt
整个研究的方法论惊人地简单:
输入图像 + 自然语言指令 → 生成视频 → 完成任务
这被称为”Video-as-Prompt”,它完美复刻了LLM的prompting范式。关键创新在于:将静态任务转化为时序过程,让模型通过”思考帧序列”来解决问题,作者称之为 Chain-of-Frames (CoF) ,直接类比LLM的CoT。
二、四层能力体系:从感知到推理
论文构建了精妙的能力金字塔,层层递进:
2.1 第一层:感知(Perception) ——理解视觉信息
这里展示了18个零样本任务,分三类:
经典CV任务(图10-16)
- 边缘检测:在BIPEDv2数据集达到0.77 OIS,有趣的是,Veo生成的边缘比ground truth还精细(树叶轮廓、轮胎纹理),这反而降低了分数——不是模型弱,是数据集低估了其理解深度
- 实例分割:LVIS数据集上mIoU达0.74,与专用编辑模型Nano Banana持平
- 超分辨率/去噪/去模糊:完美复现经典CV任务,但完全无需监督
高级感知(图17-20)
- 联合视觉搜索:在杂乱场景中找”红圈+蓝方块”的复合目标
- 错觉理解:正确识别斑点狗错觉、猫轮廓、罗夏墨迹
- 上下文理解:解析纹理-形状冲突图像
认知能力(图31)
- 世界状态记忆:放大图像后仍记得画面外的物体位置
- 物体恒常性:视角变化时保持物体身份
关键洞察:扩散模型的去噪目标天然包含结构理解,因此能涌现分割、边缘检测等能力。
2.2 第二层:建模(Modeling) ——构建世界模型
基于感知,Veo开始展现直觉物理和因果理解:
物理模拟(图21-24)
- 可燃性:正确模拟火焰蔓延到易燃物
- 浮力:木头浮、石头沉
- 空气阻力:羽毛飘落比石头慢
- 刚体/软体动力学:球弹跳、布料褶皱
物体交互(图25-26)
- Visual Jenga:理解移除顺序的物理可行性
- 背包打包:判断哪些物品能放入容器
光学与抽象(图27-30)
- 折射/反射:准确渲染光学现象
- 颜色混合:正确实现加色(光)和减色(颜料)
- Omniglot字符:识别模式、生成变体、笔画解析
技术突破:Veo展现的物理理解不是基于符号规则,而是从海量视频中学习的视觉物理模拟。
2.3 第三层:操控(Manipulation) ——主动改变世界
这是将理解转化为行动的能力:
图像编辑(图32-38)
- 精确分割与背景替换:将物体完美抠出
- 风格转换:照片→素描→油画,保持内容一致
- 涂鸦驱动编辑:根据简笔画修改图像
- 文本变形:将文字变形成糖果、椒盐卷饼
3D感知与视角合成(图39-43)
- 单图新视角合成:从一张图生成360°环绕视频
- 物体变形:茶杯→老鼠的平滑变形
- 自拍转专业照:改变光照、视角、景深
灵巧操作模拟(图44-45) 这是最惊艳的部分:
- 开罐:双机械手协作拧开瓶盖
- 抛接球:理解抛体运动、预判落点
- 转健身球:复杂的手指协调运动
- 工具使用:正确握锤、握剪刀
技术洞察:Veo的3D一致性远超传统扩散模型,这源于视频训练中的相机运动先验。
2.4 第四层:推理(Reasoning) ——跨时空的思维
这是论文的最高贡献,提出CoF框架:
空间推理(图48-52)
- 图遍历:模拟水在管道中流动
- 树搜索:可视化BFS过程
- 形状匹配:理解几何约束
- 路径连接:规划最短连接
时序规划(图53-58)
- 数字排序:气泡按数值从小到大消失
- 数独求解:4×4数独逐步填数字
- 迷宫导航:红圈沿白路径到绿圈(5×5迷宫78%成功率)
- 导航任务:机器人路径规划
规则学习(图59)
- ARC风格任务:从3个示例中学习变换规则
核心创新:Chain-of-Frames 不仅是类比CoT,更是视觉推理的本质优势——LLM推理符号,视频模型推理时空。
三、定量实验:严谨的基准测试
3.1 实验规模
- 总生成量:18,384个视频,62个定性任务+7个定量任务
- 模型对比:Veo 3 vs Veo 2 vs Nano Banana vs Gemini 2.5 Pro
- 评估指标:Best frame / Last frame / Pass@k
3.2 关键定量结果(图3-9)
感知任务
- 边缘检测:Veo 3 (0.77) >> Veo 2 (0.57),接近SOTA 0.90
- 实例分割:Veo 3 (0.74) ≈ Nano Banana (0.73),绿色背景比白色好(0.74 vs 0.66)——绿幕先验
操控任务
- 物体提取:Veo 3达93%准确率,Veo 2仅~20%
- 图像编辑:人类评估保真度0.63,Veo特别擅长保留纹理细节
推理任务
- 迷宫求解:5×5网格 Veo 3 78% vs Veo 2 14%,代际提升巨大
- 视觉对称:形状任务 Veo 3 88% >> Veo 2 44% >> Nano Banana 40%
- 视觉类比:颜色变换68%,但反射/旋转低于随机——系统性偏差
3.3 推理时扩展(图61)
重要发现:pass@10 >> pass@1,表明并行采样+多数投票有效。但反射/旋转任务中,多数投票性能反而下降,说明模型有根深蒂固的错误偏差,这类似于LLM的”顽固幻觉”。
四、技术深度与工程洞察
4.1 提示工程科学(附录C)
论文做了系统性提示敏感性研究,在视觉对称任务上测试10个变体:
最佳提示:
“Instantly reflect this pattern along the central, vertical axis while keeping the existing colored pattern without modification.”
最差提示(性能差40-64个百分点):
“A timelapse of a professional pixel artist drawing a symmetrical pattern…”
最佳实践原则:
- 明确性:指定”vertical axis”而非模糊”symmetrical”
- 负向约束:”keeping…without modification”防止无关修改
- 静态控制:”Static camera, no zoom, no pan, no dolly”
- 运动出口:用旋转色轮等”冻结”解决方案
- 速度控制:复杂任务用”step-by-step”,图像编辑用”instantly”
4.2 黑盒系统与LLM耦合
重要细节:Veo API包含LLM提示重写器,但作者验证了:
- 纯Gemini 2.5 Pro无法可靠解决迷宫、对称等核心任务
- 视觉推理能力来自视频模型本身,而非LLM
这解决了关键质疑:成果不是LLM的功劳。
4.3 成本与可扩展性
当前挑战:视频生成成本高昂。但作者引用Epoch AI数据:LLM推理成本每年下降9-900倍,视频模型将遵循同样曲线。
优化方向:
- 推理时扩展:pass@k优于增大模型
- 模型压缩:蒸馏、量化
- 专用硬件:视频生成加速器
五、失败案例与能力边界(附录D)
论文罕见地详细展示了失败案例:
5.1 物理理解局限
- 力/运动提示(图64):无法遵循箭头标注的受力方向
- 瓶颈问题(图75):高尔夫球无法通过花瓶瓶颈——尺寸关系理解失败
5.2 组合推理失败
- 文字搜索(图67):无法识别”CHEAT”单词,只能高亮单个字母——符号组合能力弱
- 路径连接(图66):幻觉点亮所有路径
- 拼图(图74):碎片方向错误、完整性丢失
5.3 抽象推理挑战
- 线性方程组(图69):产生幻觉文本
- ARC类任务(图59):规则外推能力有限
核心局限:视频模型的推理是视觉模拟式而非符号代数式,因此在需要离散符号操作的组合任务上表现不佳。
六、深层意义与批判性思考
6.1 对AGI研究的意义
论文暗示: “预测下一帧”可能是通往物理世界理解的有效路径 。这与LeCun的”世界模型”理论不谋而合——通过自监督视频预测学习常识。
关键证据:Veo展现的物理直觉不是硬编码,而是从数据中涌现的。
6.2 与LLM类比的局限性
虽然CoF类比CoT很优雅,但存在本质差异:表格
复制
| 维度 | LLM (CoT) | Video Model (CoF) |
|---|---|---|
| 状态空间 | 离散符号 | 连续像素 |
| 正确性判断 | 容易验证 | 难以精确评估 |
| 组合性 | 强(符号组合) | 弱(视觉混合) |
| 可解释性 | 可读取推理文本 | 需分析帧序列 |
风险:视频模型的”推理”可能是高级模式匹配,而非真正的符号逻辑。
6.3 评估危机
当前视觉评估面临ImageNet时刻2.0:
- 传统基准:针对专用模型设计,不适合生成式评估
- 新需求:需要能评估视觉计划(visual plan)的标准
- 主观性:人类评估成本高、一致性低
论文中的”best frame vs last frame”讨论正是这一危机的体现:我们不知道如何评估一个能生成过程的模型。
七、实践建议与未来路线图
7.1 对从业者的即刻行动
Python
复制
# Veo的Zero-shot模式模板
prompt = f"""
[任务描述:清晰、具体、无歧义]
[负向约束:保持...不变]
[运动出口:旋转色轮/进度条]
[相机控制:Static camera, no zoom, no pan, no dolly]
输入图像 + 此提示 → 生成视频 → 提取关键帧
效果提升技巧:
- 简单任务用
instantly,复杂任务用step-by-step - 添加”no glitches, no artifacts”减少伪影
- 对3D任务加”realistic lighting and shadows”
7.2 研究路线图
短期(6-12个月):
- 基准建设:开发视频模型评估套件(类似MMLU for vision)
- 提示优化:自动化提示搜索(DSPy for video)
- 混合架构:LLM规划 + 视频模型执行
中期(1-2年):
- 推理时扩展:学习LLM的self-refine、MCTS
- 物理 grounding:将视觉推理与真实物理模拟结合
- 任务蒸馏:将Veo能力蒸馏到更小模型
长期(3-5年):
- 通用视觉智能体:Veo + 机器人控制 = 通用机器人
- 因果推理:从相关性到因果性的跨越
- 世界模型:视频模型作为强化学习的世界模型
八、总结:视觉的”奥本海默时刻”
这篇论文不仅是技术报告,更是宣言书。它宣告:
“预测像素”正在像”预测token”一样,成为通向通用智能的普适密码。
就像2017年Transformer统一了NLP,2025年的视频模型可能正在统一机器视觉。Veo 3的零样本能力不是终点,而是黎明前的第一缕光。
最大的启示:通用性不需要复杂的架构设计,只需要规模 + 生成目标 + 数据。简单到令人难以置信,强大到改变一切。
发表回复