Video models are zero-shot learners and reasoners

论文总结:《Video models are zero-shot learners and reasoners》

基本信息

  • 标题:视频模型是零样本学习者和推理器
  • 作者:Robert Geirhos 等
  • 发表:arXiv, 2025年9月
  • 核心:首次系统性展示视频生成模型(Veo 3)作为通用视觉基础模型的潜力

核心观点

这篇论文提出了一个重要命题:像 Veo 3 这样的 视频生成模型不仅仅是视频生成器,它们正在演变为通用的视觉基础模型,具备强大的零样本学习和初步的视觉推理能力。

类比:就像 LLM 在文本任务上展现出的通用性一样,视频模型可能也在走向类似的通用视觉理解之路。


主要实验与发现

论文测试了 Veo 3 在 10+ 个不同视觉任务上的表现,这些任务都不是它明确训练过的:表格

复制

任务类别具体任务能力体现
视觉理解语义分割、边缘检测、深度估计、法向量估计理解图像的语义结构和几何信息
物理理解判断物体是否易碎/可滚动/可拉伸从视觉外观推断物理属性
功能理解识别物体可供性(affordance)理解物体的功能和潜在用途
视觉操作图像编辑(替换/移除对象)、风格转换精确操控视觉内容
物理模拟模拟工具使用(剪草、敲钉子、榨汁)模拟动态物理交互
视觉推理迷宫求解、对称群判断基于视觉信息进行推理和决策

关键发现:

  1. 零样本能力惊人:无需微调,仅通过设计合适的提示词(prompt)就能完成上述任务
  2. 多模态理解:能将自然语言指令与视觉内容精确对应
  3. 初步推理能力:能进行简单的规划和决策(如迷宫路径规划)
  4. 一致性:生成结果稳定可靠,优于许多专用模型

方法

  • 核心技巧“Video-as-Prompt”
    • 将输入图像作为第一帧
    • 通过文本提示描述期望的变换/分析/模拟
    • 让模型生成后续帧来实现任务

示例

  • 分割任务:提示 “A person is segmenting the dog by painting over it in red”
  • 物理模拟:提示 “A pair of scissors is cutting through the grass”

影响与意义

  1. 范式转变:视频模型可能取代专用视觉模型,成为通用视觉理解引擎
  2. 新评估维度:需要重新思考如何评估”通用视觉模型”
  3. 应用前景:统一的模型可简化视觉AI系统开发

局限与未来工作

  • 定量评估有限:目前主要是定性展示,缺乏大规模定量评测
  • 计算成本:视频模型通常比专用模型更昂贵
  • 理论理解不足:对其内部机制的理解还很初步
  • 扩展性问题:能力是否随模型规模持续提升尚需验证

总结

这篇论文是一个概念性验证,它表明:

视频生成模型不仅仅是生成工具,它们正在成长为能够理解、分析和推理视觉世界的通用智能体。

这为未来统一的视觉-语言-动作模型铺平了道路,类似于 LLM 统一了 NLP 领域。如果这一趋势继续,我们可能会看到”视频模型时代的 ImageNet时刻”。

一、核心思想:视频模型的”GPT-3时刻”

1.1 历史类比与范式洞察

论文开篇就点破天机:NLP领域从专用模型(翻译、问答、摘要各用各的)到统一LLM的转变,源于三个简单要素:

  • 大规模模型(scale)
  • 生成式训练(generative objective)
  • 互联网级数据(web-scale data)

作者发现:视频模型正在复刻完全相同的配方。Veo、Sora等模型训练目标很简单——”根据文本生成下一帧”,但就像”预测下一个token”催生了通用语言理解,”预测下一帧”可能正在催生通用视觉理解。

核心论断:视频模型不是简单的”视频生成器”,而是视觉世界的通用模拟器

1.2 极简方法论:Video-as-Prompt

整个研究的方法论惊人地简单:

输入图像 + 自然语言指令 → 生成视频 → 完成任务

这被称为”Video-as-Prompt”,它完美复刻了LLM的prompting范式。关键创新在于:将静态任务转化为时序过程,让模型通过”思考帧序列”来解决问题,作者称之为 Chain-of-Frames (CoF) ,直接类比LLM的CoT。


二、四层能力体系:从感知到推理

论文构建了精妙的能力金字塔,层层递进:

2.1 第一层:感知(Perception) ——理解视觉信息

这里展示了18个零样本任务,分三类:

经典CV任务(图10-16)

  • 边缘检测:在BIPEDv2数据集达到0.77 OIS,有趣的是,Veo生成的边缘比ground truth还精细(树叶轮廓、轮胎纹理),这反而降低了分数——不是模型弱,是数据集低估了其理解深度
  • 实例分割:LVIS数据集上mIoU达0.74,与专用编辑模型Nano Banana持平
  • 超分辨率/去噪/去模糊:完美复现经典CV任务,但完全无需监督

高级感知(图17-20)

  • 联合视觉搜索:在杂乱场景中找”红圈+蓝方块”的复合目标
  • 错觉理解:正确识别斑点狗错觉、猫轮廓、罗夏墨迹
  • 上下文理解:解析纹理-形状冲突图像

认知能力(图31)

  • 世界状态记忆:放大图像后仍记得画面外的物体位置
  • 物体恒常性:视角变化时保持物体身份

关键洞察:扩散模型的去噪目标天然包含结构理解,因此能涌现分割、边缘检测等能力。

2.2 第二层:建模(Modeling) ——构建世界模型

基于感知,Veo开始展现直觉物理因果理解

物理模拟(图21-24)

  • 可燃性:正确模拟火焰蔓延到易燃物
  • 浮力:木头浮、石头沉
  • 空气阻力:羽毛飘落比石头慢
  • 刚体/软体动力学:球弹跳、布料褶皱

物体交互(图25-26)

  • Visual Jenga:理解移除顺序的物理可行性
  • 背包打包:判断哪些物品能放入容器

光学与抽象(图27-30)

  • 折射/反射:准确渲染光学现象
  • 颜色混合:正确实现加色(光)和减色(颜料)
  • Omniglot字符:识别模式、生成变体、笔画解析

技术突破:Veo展现的物理理解不是基于符号规则,而是从海量视频中学习的视觉物理模拟

2.3 第三层:操控(Manipulation) ——主动改变世界

这是将理解转化为行动的能力:

图像编辑(图32-38)

  • 精确分割与背景替换:将物体完美抠出
  • 风格转换:照片→素描→油画,保持内容一致
  • 涂鸦驱动编辑:根据简笔画修改图像
  • 文本变形:将文字变形成糖果、椒盐卷饼

3D感知与视角合成(图39-43)

  • 单图新视角合成:从一张图生成360°环绕视频
  • 物体变形:茶杯→老鼠的平滑变形
  • 自拍转专业照:改变光照、视角、景深

灵巧操作模拟(图44-45) 这是最惊艳的部分:

  • 开罐:双机械手协作拧开瓶盖
  • 抛接球:理解抛体运动、预判落点
  • 转健身球:复杂的手指协调运动
  • 工具使用:正确握锤、握剪刀

技术洞察:Veo的3D一致性远超传统扩散模型,这源于视频训练中的相机运动先验

2.4 第四层:推理(Reasoning) ——跨时空的思维

这是论文的最高贡献,提出CoF框架:

空间推理(图48-52)

  • 图遍历:模拟水在管道中流动
  • 树搜索:可视化BFS过程
  • 形状匹配:理解几何约束
  • 路径连接:规划最短连接

时序规划(图53-58)

  • 数字排序:气泡按数值从小到大消失
  • 数独求解:4×4数独逐步填数字
  • 迷宫导航:红圈沿白路径到绿圈(5×5迷宫78%成功率
  • 导航任务:机器人路径规划

规则学习(图59)

  • ARC风格任务:从3个示例中学习变换规则

核心创新:Chain-of-Frames 不仅是类比CoT,更是视觉推理的本质优势——LLM推理符号,视频模型推理时空。


三、定量实验:严谨的基准测试

3.1 实验规模

  • 总生成量:18,384个视频,62个定性任务+7个定量任务
  • 模型对比:Veo 3 vs Veo 2 vs Nano Banana vs Gemini 2.5 Pro
  • 评估指标:Best frame / Last frame / Pass@k

3.2 关键定量结果(图3-9)

感知任务

  • 边缘检测:Veo 3 (0.77) >> Veo 2 (0.57),接近SOTA 0.90
  • 实例分割:Veo 3 (0.74) ≈ Nano Banana (0.73),绿色背景比白色好(0.74 vs 0.66)——绿幕先验

操控任务

  • 物体提取:Veo 3达93%准确率,Veo 2仅~20%
  • 图像编辑:人类评估保真度0.63,Veo特别擅长保留纹理细节

推理任务

  • 迷宫求解:5×5网格 Veo 3 78% vs Veo 2 14%,代际提升巨大
  • 视觉对称:形状任务 Veo 3 88% >> Veo 2 44% >> Nano Banana 40%
  • 视觉类比:颜色变换68%,但反射/旋转低于随机——系统性偏差

3.3 推理时扩展(图61)

重要发现:pass@10 >> pass@1,表明并行采样+多数投票有效。但反射/旋转任务中,多数投票性能反而下降,说明模型有根深蒂固的错误偏差,这类似于LLM的”顽固幻觉”。


四、技术深度与工程洞察

4.1 提示工程科学(附录C)

论文做了系统性提示敏感性研究,在视觉对称任务上测试10个变体:

最佳提示

“Instantly reflect this pattern along the central, vertical axis while keeping the existing colored pattern without modification.”

最差提示(性能差40-64个百分点):

“A timelapse of a professional pixel artist drawing a symmetrical pattern…”

最佳实践原则

  1. 明确性:指定”vertical axis”而非模糊”symmetrical”
  2. 负向约束:”keeping…without modification”防止无关修改
  3. 静态控制:”Static camera, no zoom, no pan, no dolly”
  4. 运动出口:用旋转色轮等”冻结”解决方案
  5. 速度控制:复杂任务用”step-by-step”,图像编辑用”instantly”

4.2 黑盒系统与LLM耦合

重要细节:Veo API包含LLM提示重写器,但作者验证了:

  • 纯Gemini 2.5 Pro无法可靠解决迷宫、对称等核心任务
  • 视觉推理能力来自视频模型本身,而非LLM

这解决了关键质疑:成果不是LLM的功劳。

4.3 成本与可扩展性

当前挑战:视频生成成本高昂。但作者引用Epoch AI数据:LLM推理成本每年下降9-900倍,视频模型将遵循同样曲线。

优化方向

  • 推理时扩展:pass@k优于增大模型
  • 模型压缩:蒸馏、量化
  • 专用硬件:视频生成加速器

五、失败案例与能力边界(附录D)

论文罕见地详细展示了失败案例:

5.1 物理理解局限

  • 力/运动提示(图64):无法遵循箭头标注的受力方向
  • 瓶颈问题(图75):高尔夫球无法通过花瓶瓶颈——尺寸关系理解失败

5.2 组合推理失败

  • 文字搜索(图67):无法识别”CHEAT”单词,只能高亮单个字母——符号组合能力弱
  • 路径连接(图66):幻觉点亮所有路径
  • 拼图(图74):碎片方向错误、完整性丢失

5.3 抽象推理挑战

  • 线性方程组(图69):产生幻觉文本
  • ARC类任务(图59):规则外推能力有限

核心局限:视频模型的推理是视觉模拟式而非符号代数式,因此在需要离散符号操作的组合任务上表现不佳。


六、深层意义与批判性思考

6.1 对AGI研究的意义

论文暗示: “预测下一帧”可能是通往物理世界理解的有效路径 。这与LeCun的”世界模型”理论不谋而合——通过自监督视频预测学习常识。

关键证据:Veo展现的物理直觉不是硬编码,而是从数据中涌现的。

6.2 与LLM类比的局限性

虽然CoF类比CoT很优雅,但存在本质差异:表格

复制

维度LLM (CoT)Video Model (CoF)
状态空间离散符号连续像素
正确性判断容易验证难以精确评估
组合性强(符号组合)弱(视觉混合)
可解释性可读取推理文本需分析帧序列

风险:视频模型的”推理”可能是高级模式匹配,而非真正的符号逻辑。

6.3 评估危机

当前视觉评估面临ImageNet时刻2.0

  • 传统基准:针对专用模型设计,不适合生成式评估
  • 新需求:需要能评估视觉计划(visual plan)的标准
  • 主观性:人类评估成本高、一致性低

论文中的”best frame vs last frame”讨论正是这一危机的体现:我们不知道如何评估一个能生成过程的模型


七、实践建议与未来路线图

7.1 对从业者的即刻行动

Python

复制

# Veo的Zero-shot模式模板
prompt = f"""
[任务描述:清晰、具体、无歧义]
[负向约束:保持...不变]
[运动出口:旋转色轮/进度条]
[相机控制:Static camera, no zoom, no pan, no dolly]
输入图像 + 此提示 → 生成视频 → 提取关键帧

效果提升技巧

  • 简单任务用instantly,复杂任务用step-by-step
  • 添加”no glitches, no artifacts”减少伪影
  • 对3D任务加”realistic lighting and shadows”

7.2 研究路线图

短期(6-12个月)

  1. 基准建设:开发视频模型评估套件(类似MMLU for vision)
  2. 提示优化:自动化提示搜索(DSPy for video)
  3. 混合架构:LLM规划 + 视频模型执行

中期(1-2年)

  1. 推理时扩展:学习LLM的self-refine、MCTS
  2. 物理 grounding:将视觉推理与真实物理模拟结合
  3. 任务蒸馏:将Veo能力蒸馏到更小模型

长期(3-5年)

  1. 通用视觉智能体:Veo + 机器人控制 = 通用机器人
  2. 因果推理:从相关性到因果性的跨越
  3. 世界模型:视频模型作为强化学习的世界模型

八、总结:视觉的”奥本海默时刻”

这篇论文不仅是技术报告,更是宣言书。它宣告:

“预测像素”正在像”预测token”一样,成为通向通用智能的普适密码。

就像2017年Transformer统一了NLP,2025年的视频模型可能正在统一机器视觉。Veo 3的零样本能力不是终点,而是黎明前的第一缕光

最大的启示:通用性不需要复杂的架构设计,只需要规模 + 生成目标 + 数据。简单到令人难以置信,强大到改变一切。


已发布

分类

来自

标签:

评论

《“Video models are zero-shot learners and reasoners”》 有 1 条评论

  1. song 的头像

    一、核心思想:视频模型的”GPT-3时刻”
    1.1 历史类比与范式洞察
    论文开篇就点破天机:NLP领域从专用模型(翻译、问答、摘要各用各的)到统一LLM的转变,源于三个简单要素:
    大规模模型(scale)
    生成式训练(generative objective)
    互联网级数据(web-scale data)
    作者发现:视频模型正在复刻完全相同的配方。Veo、Sora等模型训练目标很简单——”根据文本生成下一帧”,但就像”预测下一个token”催生了通用语言理解,”预测下一帧”可能正在催生通用视觉理解。
    核心论断:视频模型不是简单的”视频生成器”,而是视觉世界的通用模拟器。
    1.2 极简方法论:Video-as-Prompt
    整个研究的方法论惊人地简单:
    输入图像 + 自然语言指令 → 生成视频 → 完成任务
    这被称为”Video-as-Prompt”,它完美复刻了LLM的prompting范式。关键创新在于:将静态任务转化为时序过程,让模型通过”思考帧序列”来解决问题,作者称之为 Chain-of-Frames (CoF) ,直接类比LLM的CoT。
    二、四层能力体系:从感知到推理
    论文构建了精妙的能力金字塔,层层递进:
    2.1 第一层:感知(Perception) ——理解视觉信息
    这里展示了18个零样本任务,分三类:
    经典CV任务(图10-16)
    边缘检测:在BIPEDv2数据集达到0.77 OIS,有趣的是,Veo生成的边缘比ground truth还精细(树叶轮廓、轮胎纹理),这反而降低了分数——不是模型弱,是数据集低估了其理解深度
    实例分割:LVIS数据集上mIoU达0.74,与专用编辑模型Nano Banana持平
    超分辨率/去噪/去模糊:完美复现经典CV任务,但完全无需监督
    高级感知(图17-20)
    联合视觉搜索:在杂乱场景中找”红圈+蓝方块”的复合目标
    错觉理解:正确识别斑点狗错觉、猫轮廓、罗夏墨迹
    上下文理解:解析纹理-形状冲突图像
    认知能力(图31)
    世界状态记忆:放大图像后仍记得画面外的物体位置
    物体恒常性:视角变化时保持物体身份
    关键洞察:扩散模型的去噪目标天然包含结构理解,因此能涌现分割、边缘检测等能力。
    2.2 第二层:建模(Modeling) ——构建世界模型
    基于感知,Veo开始展现直觉物理和因果理解:
    物理模拟(图21-24)
    可燃性:正确模拟火焰蔓延到易燃物
    浮力:木头浮、石头沉
    空气阻力:羽毛飘落比石头慢
    刚体/软体动力学:球弹跳、布料褶皱
    物体交互(图25-26)
    Visual Jenga:理解移除顺序的物理可行性
    背包打包:判断哪些物品能放入容器
    光学与抽象(图27-30)
    折射/反射:准确渲染光学现象
    颜色混合:正确实现加色(光)和减色(颜料)
    Omniglot字符:识别模式、生成变体、笔画解析
    技术突破:Veo展现的物理理解不是基于符号规则,而是从海量视频中学习的视觉物理模拟。
    2.3 第三层:操控(Manipulation) ——主动改变世界
    这是将理解转化为行动的能力:
    图像编辑(图32-38)
    精确分割与背景替换:将物体完美抠出
    风格转换:照片→素描→油画,保持内容一致
    涂鸦驱动编辑:根据简笔画修改图像
    文本变形:将文字变形成糖果、椒盐卷饼
    3D感知与视角合成(图39-43)
    单图新视角合成:从一张图生成360°环绕视频
    物体变形:茶杯→老鼠的平滑变形
    自拍转专业照:改变光照、视角、景深
    灵巧操作模拟(图44-45)
    这是最惊艳的部分:
    开罐:双机械手协作拧开瓶盖
    抛接球:理解抛体运动、预判落点
    转健身球:复杂的手指协调运动
    工具使用:正确握锤、握剪刀
    技术洞察:Veo的3D一致性远超传统扩散模型,这源于视频训练中的相机运动先验。
    2.4 第四层:推理(Reasoning) ——跨时空的思维
    这是论文的最高贡献,提出CoF框架:
    空间推理(图48-52)
    图遍历:模拟水在管道中流动
    树搜索:可视化BFS过程
    形状匹配:理解几何约束
    路径连接:规划最短连接
    时序规划(图53-58)
    数字排序:气泡按数值从小到大消失
    数独求解:4×4数独逐步填数字
    迷宫导航:红圈沿白路径到绿圈(5×5迷宫78%成功率)
    导航任务:机器人路径规划
    规则学习(图59)
    ARC风格任务:从3个示例中学习变换规则
    核心创新:Chain-of-Frames 不仅是类比CoT,更是视觉推理的本质优势——LLM推理符号,视频模型推理时空。
    三、定量实验:严谨的基准测试
    3.1 实验规模
    总生成量:18,384个视频,62个定性任务+7个定量任务
    模型对比:Veo 3 vs Veo 2 vs Nano Banana vs Gemini 2.5 Pro
    评估指标:Best frame / Last frame / Pass@k
    3.2 关键定量结果(图3-9)
    感知任务
    边缘检测:Veo 3 (0.77) >> Veo 2 (0.57),接近SOTA 0.90
    实例分割:Veo 3 (0.74) ≈ Nano Banana (0.73),绿色背景比白色好(0.74 vs 0.66)——绿幕先验
    操控任务
    物体提取:Veo 3达93%准确率,Veo 2仅~20%
    图像编辑:人类评估保真度0.63,Veo特别擅长保留纹理细节
    推理任务
    迷宫求解:5×5网格 Veo 3 78% vs Veo 2 14%,代际提升巨大
    视觉对称:形状任务 Veo 3 88% >> Veo 2 44% >> Nano Banana 40%
    视觉类比:颜色变换68%,但反射/旋转低于随机——系统性偏差
    3.3 推理时扩展(图61)
    重要发现:pass@10 >> pass@1,表明并行采样+多数投票有效。但反射/旋转任务中,多数投票性能反而下降,说明模型有根深蒂固的错误偏差,这类似于LLM的”顽固幻觉”。
    四、技术深度与工程洞察
    4.1 提示工程科学(附录C)
    论文做了系统性提示敏感性研究,在视觉对称任务上测试10个变体:
    最佳提示:
    “Instantly reflect this pattern along the central, vertical axis while keeping the existing colored pattern without modification.”
    最差提示(性能差40-64个百分点):
    “A timelapse of a professional pixel artist drawing a symmetrical pattern…”
    最佳实践原则:
    明确性:指定”vertical axis”而非模糊”symmetrical”
    负向约束:”keeping…without modification”防止无关修改
    静态控制:”Static camera, no zoom, no pan, no dolly”
    运动出口:用旋转色轮等”冻结”解决方案
    速度控制:复杂任务用”step-by-step”,图像编辑用”instantly”
    4.2 黑盒系统与LLM耦合
    重要细节:Veo API包含LLM提示重写器,但作者验证了:
    纯Gemini 2.5 Pro无法可靠解决迷宫、对称等核心任务
    视觉推理能力来自视频模型本身,而非LLM
    这解决了关键质疑:成果不是LLM的功劳。
    4.3 成本与可扩展性
    当前挑战:视频生成成本高昂。但作者引用Epoch AI数据:LLM推理成本每年下降9-900倍,视频模型将遵循同样曲线。
    优化方向:
    推理时扩展:pass@k优于增大模型
    模型压缩:蒸馏、量化
    专用硬件:视频生成加速器
    五、失败案例与能力边界(附录D)
    论文罕见地详细展示了失败案例:
    5.1 物理理解局限
    力/运动提示(图64):无法遵循箭头标注的受力方向
    瓶颈问题(图75):高尔夫球无法通过花瓶瓶颈——尺寸关系理解失败
    5.2 组合推理失败
    文字搜索(图67):无法识别”CHEAT”单词,只能高亮单个字母——符号组合能力弱
    路径连接(图66):幻觉点亮所有路径
    拼图(图74):碎片方向错误、完整性丢失
    5.3 抽象推理挑战
    线性方程组(图69):产生幻觉文本
    ARC类任务(图59):规则外推能力有限
    核心局限:视频模型的推理是视觉模拟式而非符号代数式,因此在需要离散符号操作的组合任务上表现不佳。
    六、深层意义与批判性思考
    6.1 对AGI研究的意义
    论文暗示: “预测下一帧”可能是通往物理世界理解的有效路径 。这与LeCun的”世界模型”理论不谋而合——通过自监督视频预测学习常识。
    关键证据:Veo展现的物理直觉不是硬编码,而是从数据中涌现的。
    6.2 与LLM类比的局限性
    虽然CoF类比CoT很优雅,但存在本质差异:
    表格
    复制
    维度 LLM (CoT) Video Model (CoF)
    状态空间 离散符号 连续像素
    正确性判断 容易验证 难以精确评估
    组合性 强(符号组合) 弱(视觉混合)
    可解释性 可读取推理文本 需分析帧序列
    风险:视频模型的”推理”可能是高级模式匹配,而非真正的符号逻辑。
    6.3 评估危机
    当前视觉评估面临ImageNet时刻2.0:
    传统基准:针对专用模型设计,不适合生成式评估
    新需求:需要能评估视觉计划(visual plan)的标准
    主观性:人类评估成本高、一致性低
    论文中的”best frame vs last frame”讨论正是这一危机的体现:我们不知道如何评估一个能生成过程的模型。
    七、实践建议与未来路线图
    7.1 对从业者的即刻行动
    Python
    复制
    # Veo的Zero-shot模式模板
    prompt = f”””
    [任务描述:清晰、具体、无歧义]
    [负向约束:保持…不变]
    [运动出口:旋转色轮/进度条]
    [相机控制:Static camera, no zoom, no pan, no dolly]
    输入图像 + 此提示 → 生成视频 → 提取关键帧
    效果提升技巧:
    简单任务用instantly,复杂任务用step-by-step
    添加”no glitches, no artifacts”减少伪影
    对3D任务加”realistic lighting and shadows”
    7.2 研究路线图
    短期(6-12个月):
    基准建设:开发视频模型评估套件(类似MMLU for vision)
    提示优化:自动化提示搜索(DSPy for video)
    混合架构:LLM规划 + 视频模型执行
    中期(1-2年):
    推理时扩展:学习LLM的self-refine、MCTS
    物理 grounding:将视觉推理与真实物理模拟结合
    任务蒸馏:将Veo能力蒸馏到更小模型
    长期(3-5年):
    通用视觉智能体:Veo + 机器人控制 = 通用机器人
    因果推理:从相关性到因果性的跨越
    世界模型:视频模型作为强化学习的世界模型
    八、总结:视觉的”奥本海默时刻”
    这篇论文不仅是技术报告,更是宣言书。它宣告:
    “预测像素”正在像”预测token”一样,成为通向通用智能的普适密码。
    就像2017年Transformer统一了NLP,2025年的视频模型可能正在统一机器视觉。Veo 3的零样本能力不是终点,而是黎明前的第一缕光。
    最大的启示:通用性不需要复杂的架构设计,只需要规模 + 生成目标 + 数据。简单到令人难以置信,强大到改变一切。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注