DeepSeek-V4 技术报告解读
报告日期: 2026年4月24日
模型发布: DeepSeek-V4 预览版(双版本:Pro / Flash)
开源协议: MIT
技术报告: DeepSeek_V4.pdf
一、模型概览与定位
DeepSeek-V4 是深度求索(DeepSeek)于 2026年4月24日 发布的最新一代大语言模型,采用 MoE(Mixture of Experts) 架构,主打百万字超长上下文(1M tokens)与顶尖代码/推理能力。
核心定位:
- 首发即适配 华为昇腾(Ascend) 平台,同时兼容 NVIDIA GPU
- 全系标配 1M tokens 上下文窗口(约75万字)
- 在 Agent 能力、世界知识和推理性能上实现开源领域领先
- 部分指标比肩甚至超越顶级闭源模型
二、双版本规格对比
| 规格 | V4-Pro(旗舰版) | V4-Flash(经济版) |
|---|---|---|
| 总参数 | 1.6T | 284B |
| 激活参数(MoE) | 49B active | 13B active |
| 预训练数据量 | 33T tokens | 32T tokens |
| 上下文长度 | 1M tokens | 1M tokens |
| 最大输出长度 | 384K tokens | 384K tokens |
| 计算精度 | FP4 + FP8 混合精度 | FP4 + FP8 混合精度 |
| 定位 | 复杂智能体、专业代码生成 | 日常对话、高并发 API 调用 |
三、六大核心技术创新
1. 混合注意力机制(CSA + HCA)
- CSA(Compressed Sequence Attention,压缩序列注意力)与 HCA(Heavily Compressed Attention,重度压缩注意力)协同工作
- 效果:在 1M 上下文下,相比 V3.2:
- 单 token 推理 FLOPs 降至 27%(降低 73%)
- KV Cache 占用降至 10%(减少 90%)
2. DSA 稀疏注意力(DeepSeek Sparse Attention)
- 在 token 维度进行压缩,显著降低长序列处理的计算冗余
- 改变传统全量注意力的计算范式
- 实现长上下文与低算耗的统一
3. 流形约束超连接(mHC)
- 在深层 Transformer 中引入流形约束
- 抑制深层梯度弥散,提升深层信号稳定性
- 防止专家激活分布随深度坍缩
4. Muon 优化器
- 替代传统 AdamW,采用矩阵正交化的动量更新机制
- 在同等计算量下收敛更快、最终损失更低
- 在超过 32T tokens 的预训练规模下效果稳定
5. 训练与后训练 Pipeline
- 超大规模语料预训练 + 策略蒸馏优化
- 强化推理、编程与世界知识能力
- 支持
reasoning_effort参数调节思考强度(high / max)
6. 长上下文效率优化
- V4-Pro 单 token 计算量比 V3.2 降低 3.7 倍
- V4-Flash 单 token 计算量比 V3.2 降低 9.8 倍
- 1M 上下文成为 DeepSeek 所有官方服务的标配
四、性能指标与评测结果
4.1 综合基准测试(V4-Pro-Max)
| 评测项 | V4-Pro 成绩 | 说明 |
|---|---|---|
| MMLU | 90.1 | 多学科综合 |
| MMLU-Pro | 73.5 | 专业级推理 |
| C-Eval | 93.1 | 中文综合评测 |
| GPQA Diamond | 90.1 | 研究生级科学推理 |
| HumanEval | 76.8 | 代码补全 |
| LiveCodeBench | 93.5 | 动态代码测试 |
| Codeforces Rating | 3206 | 开源模型最高 |
| GSM8K | 92.6 | 小学数学 |
| MATH | 64.5 | 竞赛数学 |
| SWE Verified | 80.6% | 软件工程修复(官方自测) |
| SWE Pro | 55.4% | 工程级修复 |
| Terminal Bench | 67.9 | 终端任务 |
| MRCR 1M | 83.5 | 百万级长上下文召回 |
| CorpusQA 1M | 62.0 | 百万级长文档问答 |
4.2 与头部闭源模型横向对比
| 基准测试 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro | DeepSeek V4 Pro-Max |
|---|---|---|---|---|
| MMLU-Pro (知识) | 87.5 | 89.1 | 91.0 | 87.5 |
| SimpleQA (事实) | 45.3 | 46.2 | 75.6 | 57.9 |
| GPQA Diamond (推理) | 93.0 | 91.3 | 94.3 | 90.1 |
| HLE (推理) | 39.8 | 40.0 | 44.4 | 37.7 |
| LiveCodeBench (代码) | — | 88.8 | 91.7 | 93.5 |
| Codeforces (代码) | 3168 | — | 3052 | 3206 |
| Apex Shortlist (代码) | 78.1 | 85.9 | 89.1 | 90.2 |
关键结论:
- ✅ 代码能力顶尖:LiveCodeBench、Codeforces、Apex Shortlist 均领先
- ✅ 推理能力先进:GPQA Diamond 接近竞品
- ⚠️ 知识类仍有差距:MMLU-Pro、SimpleQA 落后于 Gemini 3.1 Pro
4.3 代际提升(V4-Pro vs V3.2)
| 类别 | 指标 | V3.2 | V4-Pro | 提升幅度 |
|---|---|---|---|---|
| 知识 | MMLU-Pro | 65.5 | 73.5 | +8.0 |
| 事实问答 | SimpleQA | 28.3 | 55.2 | +26.9 |
| 事实问答 | FACTS | 27.1 | 62.6 | +35.5 |
| 代码 | HumanEval | 62.8 | 76.8 | +14.0 |
| 数学 | MATH | 60.5 | 64.5 | +4.0 |
| 长上下文 | LongBench-V2 | 40.2 | 51.5 | +11.3 |
核心变化:
- 事实问答爆发式增长(FACTS +35.5,SimpleQA +26.9)
- 代码能力大幅跃升(HumanEval +14.0)
- 长上下文能力显著强化(LongBench-V2 +11.3)
五、API 定价与商业部署
5.1 定价策略(每百万 tokens)
| 模型 | 输入(缓存命中) | 输入(未命中) | 输出 |
|---|---|---|---|
| V4-Flash | ¥0.2 / $0.028 | ¥1 / $0.14 | ¥2 / $0.28 |
| V4-Pro | ¥1 / $0.145 | ¥12 / $1.74 | ¥24 / $3.48 |
成本优势:
- V4-Pro 输出定价约为 GPT-5.4($15)的 1/4
- V4-Pro 输出定价约为 Claude Opus 4.6($25)的 1/7
- 夜间半价:北京时间 23:00—07:00
5.2 版本对比分析
| 维度 | V3.2 | V4-Flash | V4-Pro |
|---|---|---|---|
| 上下文 | 128K | 1M | 1M |
| 输入(未命中) | ¥2 | ¥1 | ¥12 |
| 输出 | ¥3 | ¥2 | ¥24 |
| 性价比 | 基准 | 加量减价 | 性能溢价 |
- Flash 版:上下文扩大 8 倍,价格更低,性价比极高
- Pro 版:价格大幅上涨,目标性能敏感型企业级场景
5.3 接入与迁移
- API 模型名称:
deepseek-v4-pro或deepseek-v4-flash - 接口兼容:支持 OpenAI ChatCompletions 和 Anthropic 格式
- 旧版停用:
deepseek-chat/deepseek-reasoner将于 2026年7月24日 停用 - 当前映射:
deepseek-chat→ V4-Flash 非思考模式deepseek-reasoner→ V4-Flash 思考模式
六、国产算力适配
| 平台 | 适配状态 | 说明 |
|---|---|---|
| 华为昇腾 | ✅ 首发适配 | 代码从 CUDA 迁移至 华为 CANN;昇腾 950PR/950DT |
| 寒武纪 | ✅ Day 0 适配 | 基于 vLLM 框架,适配代码已开源至 GitHub |
| NVIDIA GPU | ✅ 兼容 | 原生支持 |
战略意义:首发即适配华为昇腾(而非仅 NVIDIA),被视为在出口管制背景下 AI 算力路径多元化的重要信号。
七、开源生态与部署
- 开源权重:
- 技术报告:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
- 开源协议:MIT(商用零门槛)
- 本地部署:Flash 版最低需 200GB+ 内存,普通开发者难以本地部署
八、战略与商业化动态
- 融资转折:DeepSeek 长期拒绝外部融资,此次于 2026 年 4 月首次启动对外融资洽谈
- 目标估值:200 亿美元(腾讯、阿里均参与谈判)
- 官方引言:「不诱于誉,不恐于诽,率道而行,端然正己。」(出自《荀子・非十二子》)
九、总结与评价
核心卖点
- 百万上下文普惠化:1M tokens 成为标配,通过 DSA 稀疏注意力实现低算耗
- 代码能力顶尖:LiveCodeBench、Codeforces 等核心代码基准领先
- 事实问答可靠性大幅提升:FACTS +35.5,幻觉显著减少
- 开源生态友好:MIT 协议,兼容 OpenAI/Anthropic API
适用场景
- V4-Flash:长文本处理、高并发 API 调用、成本敏感型业务
- V4-Pro:复杂 Agent 任务、专业代码生成、事实准确性要求高的场景
与闭源模型差距
- ⚠️ 通用知识(MMLU-Pro、SimpleQA)仍落后于 Gemini 3.1 Pro
- ⚠️ 复杂逻辑推理(BBH)与前代基本持平,非此代重点突破方向
信息来源:综合自 DeepSeek 官方公告、AI Insight、IT之家、投资界、小众软件、AIHub、AITOP100 等渠道,发布日期均为 2026 年 4 月 24 日。
发表回复