DeepSeek_V4_技术报告解读

DeepSeek-V4 技术报告解读

报告日期: 2026年4月24日
模型发布: DeepSeek-V4 预览版（双版本：Pro / Flash）
开源协议: MIT
技术报告: DeepSeek_V4.pdf

一、模型概览与定位

DeepSeek-V4 是深度求索（DeepSeek）于 2026年4月24日 发布的最新一代大语言模型，采用 MoE（Mixture of Experts） 架构，主打百万字超长上下文（1M tokens）与顶尖代码/推理能力。

核心定位：

首发即适配 华为昇腾（Ascend） 平台，同时兼容 NVIDIA GPU
全系标配 1M tokens 上下文窗口（约75万字）
在 Agent 能力、世界知识和推理性能上实现开源领域领先
部分指标比肩甚至超越顶级闭源模型

二、双版本规格对比

规格	V4-Pro（旗舰版）	V4-Flash（经济版）
总参数	1.6T	284B
激活参数（MoE）	49B active	13B active
预训练数据量	33T tokens	32T tokens
上下文长度	1M tokens	1M tokens
最大输出长度	384K tokens	384K tokens
计算精度	FP4 + FP8 混合精度	FP4 + FP8 混合精度
定位	复杂智能体、专业代码生成	日常对话、高并发 API 调用

三、六大核心技术创新

1. 混合注意力机制（CSA + HCA）

CSA（Compressed Sequence Attention，压缩序列注意力）与 HCA（Heavily Compressed Attention，重度压缩注意力）协同工作
效果：在 1M 上下文下，相比 V3.2：
- 单 token 推理 FLOPs 降至 27%（降低 73%）
- KV Cache 占用降至 10%（减少 90%）

2. DSA 稀疏注意力（DeepSeek Sparse Attention）

在 token 维度进行压缩，显著降低长序列处理的计算冗余
改变传统全量注意力的计算范式
实现长上下文与低算耗的统一

3. 流形约束超连接（mHC）

在深层 Transformer 中引入流形约束
抑制深层梯度弥散，提升深层信号稳定性
防止专家激活分布随深度坍缩

4. Muon 优化器

替代传统 AdamW，采用矩阵正交化的动量更新机制
在同等计算量下收敛更快、最终损失更低
在超过 32T tokens 的预训练规模下效果稳定

5. 训练与后训练 Pipeline

超大规模语料预训练 + 策略蒸馏优化
强化推理、编程与世界知识能力
支持 reasoning_effort 参数调节思考强度（high / max）

6. 长上下文效率优化

V4-Pro 单 token 计算量比 V3.2 降低 3.7 倍
V4-Flash 单 token 计算量比 V3.2 降低 9.8 倍
1M 上下文成为 DeepSeek 所有官方服务的标配

四、性能指标与评测结果

4.1 综合基准测试（V4-Pro-Max）

评测项	V4-Pro 成绩	说明
MMLU	90.1	多学科综合
MMLU-Pro	73.5	专业级推理
C-Eval	93.1	中文综合评测
GPQA Diamond	90.1	研究生级科学推理
HumanEval	76.8	代码补全
LiveCodeBench	93.5	动态代码测试
Codeforces Rating	3206	开源模型最高
GSM8K	92.6	小学数学
MATH	64.5	竞赛数学
SWE Verified	80.6%	软件工程修复（官方自测）
SWE Pro	55.4%	工程级修复
Terminal Bench	67.9	终端任务
MRCR 1M	83.5	百万级长上下文召回
CorpusQA 1M	62.0	百万级长文档问答

4.2 与头部闭源模型横向对比

基准测试	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro	DeepSeek V4 Pro-Max
MMLU-Pro (知识)	87.5	89.1	91.0	87.5
SimpleQA (事实)	45.3	46.2	75.6	57.9
GPQA Diamond (推理)	93.0	91.3	94.3	90.1
HLE (推理)	39.8	40.0	44.4	37.7
LiveCodeBench (代码)	—	88.8	91.7	93.5
Codeforces (代码)	3168	—	3052	3206
Apex Shortlist (代码)	78.1	85.9	89.1	90.2

关键结论：

✅ 代码能力顶尖：LiveCodeBench、Codeforces、Apex Shortlist 均领先
✅ 推理能力先进：GPQA Diamond 接近竞品
⚠️ 知识类仍有差距：MMLU-Pro、SimpleQA 落后于 Gemini 3.1 Pro

4.3 代际提升（V4-Pro vs V3.2）

类别	指标	V3.2	V4-Pro	提升幅度
知识	MMLU-Pro	65.5	73.5	+8.0
事实问答	SimpleQA	28.3	55.2	+26.9
事实问答	FACTS	27.1	62.6	+35.5
代码	HumanEval	62.8	76.8	+14.0
数学	MATH	60.5	64.5	+4.0
长上下文	LongBench-V2	40.2	51.5	+11.3

核心变化：

事实问答爆发式增长（FACTS +35.5，SimpleQA +26.9）
代码能力大幅跃升（HumanEval +14.0）
长上下文能力显著强化（LongBench-V2 +11.3）

五、API 定价与商业部署

5.1 定价策略（每百万 tokens）

模型	输入（缓存命中）	输入（未命中）	输出
V4-Flash	¥0.2 / $0.028	¥1 / $0.14	¥2 / $0.28
V4-Pro	¥1 / $0.145	¥12 / $1.74	¥24 / $3.48

成本优势：

V4-Pro 输出定价约为 GPT-5.4（$15）的 1/4
V4-Pro 输出定价约为 Claude Opus 4.6（$25）的 1/7
夜间半价：北京时间 23:00—07:00

5.2 版本对比分析

维度	V3.2	V4-Flash	V4-Pro
上下文	128K	1M	1M
输入（未命中）	¥2	¥1	¥12
输出	¥3	¥2	¥24
性价比	基准	加量减价	性能溢价

Flash 版：上下文扩大 8 倍，价格更低，性价比极高
Pro 版：价格大幅上涨，目标性能敏感型企业级场景

5.3 接入与迁移

API 模型名称：deepseek-v4-pro 或 deepseek-v4-flash
接口兼容：支持 OpenAI ChatCompletions 和 Anthropic 格式
旧版停用：deepseek-chat / deepseek-reasoner 将于 2026年7月24日 停用
当前映射：
- deepseek-chat → V4-Flash 非思考模式
- deepseek-reasoner → V4-Flash 思考模式

六、国产算力适配

平台	适配状态	说明
华为昇腾	✅ 首发适配	代码从 CUDA 迁移至华为 CANN；昇腾 950PR/950DT
寒武纪	✅ Day 0 适配	基于 vLLM 框架，适配代码已开源至 GitHub
NVIDIA GPU	✅ 兼容	原生支持

战略意义：首发即适配华为昇腾（而非仅 NVIDIA），被视为在出口管制背景下 AI 算力路径多元化的重要信号。

七、开源生态与部署

开源权重：
- Hugging Face: https://huggingface.co/collections/deepseek-ai/deepseek-v4
- ModelScope: https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
技术报告：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
开源协议：MIT（商用零门槛）
本地部署：Flash 版最低需 200GB+ 内存，普通开发者难以本地部署

八、战略与商业化动态

融资转折：DeepSeek 长期拒绝外部融资，此次于 2026 年 4 月首次启动对外融资洽谈
目标估值：200 亿美元（腾讯、阿里均参与谈判）
官方引言：「不诱于誉，不恐于诽，率道而行，端然正己。」（出自《荀子・非十二子》）

九、总结与评价

核心卖点

百万上下文普惠化：1M tokens 成为标配，通过 DSA 稀疏注意力实现低算耗
代码能力顶尖：LiveCodeBench、Codeforces 等核心代码基准领先
事实问答可靠性大幅提升：FACTS +35.5，幻觉显著减少
开源生态友好：MIT 协议，兼容 OpenAI/Anthropic API

适用场景

V4-Flash：长文本处理、高并发 API 调用、成本敏感型业务
V4-Pro：复杂 Agent 任务、专业代码生成、事实准确性要求高的场景

与闭源模型差距

⚠️ 通用知识（MMLU-Pro、SimpleQA）仍落后于 Gemini 3.1 Pro
⚠️ 复杂逻辑推理（BBH）与前代基本持平，非此代重点突破方向

信息来源：综合自 DeepSeek 官方公告、AI Insight、IT之家、投资界、小众软件、AIHub、AITOP100 等渠道，发布日期均为 2026 年 4 月 24 日。

已发布

2026年4月24日

分类

未分类

来自

song

标签：

AI Times –AI 时代，中年人倔强的记录

DeepSeek_V4_技术报告解读

DeepSeek-V4 技术报告解读

一、模型概览与定位

二、双版本规格对比

三、六大核心技术创新

1. 混合注意力机制（CSA + HCA）

2. DSA 稀疏注意力（DeepSeek Sparse Attention）

3. 流形约束超连接（mHC）

4. Muon 优化器

5. 训练与后训练 Pipeline

6. 长上下文效率优化

四、性能指标与评测结果

4.1 综合基准测试（V4-Pro-Max）

4.2 与头部闭源模型横向对比

4.3 代际提升（V4-Pro vs V3.2）

五、API 定价与商业部署

5.1 定价策略（每百万 tokens）

5.2 版本对比分析

5.3 接入与迁移

六、国产算力适配

七、开源生态与部署

八、战略与商业化动态

九、总结与评价

核心卖点

适用场景

与闭源模型差距

评论

发表回复取消回复

DeepSeek_V4_技术报告解读

DeepSeek-V4 技术报告解读

一、模型概览与定位

二、双版本规格对比

三、六大核心技术创新

1. 混合注意力机制（CSA + HCA）

2. DSA 稀疏注意力（DeepSeek Sparse Attention）

3. 流形约束超连接（mHC）

4. Muon 优化器

5. 训练与后训练 Pipeline

6. 长上下文效率优化

四、性能指标与评测结果

4.1 综合基准测试（V4-Pro-Max）

4.2 与头部闭源模型横向对比

4.3 代际提升（V4-Pro vs V3.2）

五、API 定价与商业部署

5.1 定价策略（每百万 tokens）

5.2 版本对比分析

5.3 接入与迁移

六、国产算力适配

七、开源生态与部署

八、战略与商业化动态

九、总结与评价

核心卖点

适用场景

与闭源模型差距

评论

发表回复 取消回复

发表回复取消回复