特斯拉 FSD V12 之所以被称为“自动驾驶的全新范式”,核心在于它第一次把“感知-决策-控制”整条链路压进一个端到端神经网络,用数据驱动彻底替代了人工写的规则代码,从而把自动驾驶从“工程师写逻辑”变成了“模型自己学驾驶”。具体特殊性体现在三点:
- 代码量从 30 万行 C++ 直接砍到 2 000 行以内,规则引擎基本消失,车辆动作由神经网络直接输出,实现“光子进、控制出”。
- 训练方式变成纯模仿学习:用数百万段人类驾驶视频做监督,让网络复制人类司机的“直觉”,长尾场景泛化能力大幅提升,城市复杂路况(无保护左转、施工绕行等)干预次数下降 65%。
- 架构上彻底端到端,消除模块化系统“层层信息丢失”的缺陷,驾驶风格更接近人类,体感丝滑,不再出现早期版本“机械式加减速”。
业界把 V12 比作“自动驾驶的奥本海默时刻”——它首次证明纯数据驱动范式在城市场景可工程化落地,标志着行业从“规则驱动”迈入“数据驱动”临界点。
下面从“团队结构”和“关键技术”两条线,把特斯拉 FSD 的“人”与“事”串起来,方便你一眼看清这套系统是怎么被做出来的,又到底新在哪。
一、团队:小而精、垂直汇报、跨学科混编
- 顶层:直接向马斯克汇报的是“AI & Autopilot” 副总裁 Ashok Elluswamy,他统管感知、规控、芯片、数据、仿真五大方向。
- 核心小组:
– 视觉与网络组:负责端到端大模型、多模态融合(视觉+语言+音频),<20 人,主力是前 OpenAI 研究员、ICCV 最佳论文得主等。
– 芯片与编译器组:2016 年成立,Jim Keller 与 Pete Bannon 带队,18 个月流片,现在迭代到 HW4.0 双 NPU(单颗 72 TOPS),功耗 <7 W。
– 数据引擎组:中美两地超 100 人做自动 4D 标注,12 小时可标 1 万段行程,相当于 500 万小时人工量。
– 仿真与验证组:用 3D Gaussian 重建+对抗生成,把真实街道秒变可编辑虚拟场景,每天跑数百万公里闭环测试。 - 组织特色:功能型结构、层级极扁;算法、芯片、车辆、法规同一层楼办公,保证“今天发现 bug、明天就 OTA”。
二、技术创新:从“写规则”到“学驾驶”的三级跳
- 端到端单网络(V12 起):
输入 7 路 8-bit 视频流 → 直接输出转向/制动/加速,人工 C++ 从 30 万行砍到 2 000 行,消除模块化接口瓶颈,实现“光子进、控制出”。 - 多模态大模型(V14):
在端到端基础上引入 VLA(Vision-Language-Action)框架,网络内部同时生成 3D 占用栅格、语言决策链(Chain-of-Thought)和控制指令,可“看懂”施工牌并“自言自语”推理出“需借道左侧”。 - 自研芯片 + Dojo 超算:
– FSD Chip 采用可配置 DMA 与片上 SRAM 切片,把权重预取和计算并行化,延迟 <2 ms,功耗只有 GPU 方案的 1/5。
– Dojo 用 7 nm 训练 tiles 拼成无交换机拓扑,单柜 1.1 EFLOPS,专门跑视频级无监督预训练,把 OTA 迭代周期从月缩到周。 - 数据闭环:
车端影子模式采集 → 云端自动标注 → Dojo 训练 → 仿真验证 → OTA 推送,全流程无人值守;长尾样本(拖车、异形障碍物)通过 Occupancy Network 在线挖掘,识别率提升 3 倍。 - 安全与可解释:
端到端网络在推理时会同步输出语言解释、占用栅格、语义分割三张“中间图”,供监管与工程师回溯决策路径,实现“黑盒里的灰盒”。
一句话总结:特斯拉把“芯片-数据-模型-车”四条链路全部自己做,并用端到端+多模态+语言推理把自动驾驶从“工程师写 if-then” 升级为“模型自己读视频、自己推理、自己开车”,这才是 FSD 被业内视为“新范式”的根本原因。
发表回复