- DeepSeek-V3.2(标准版):主打性价比与日常使用,推理能力达到 GPT-5 水平,比 Kimi-K2-Thinking 输出更短、更快且更省成本,并首次实现「边思考边用工具」。官网、APP、API 均已升级到该版本,适用于日常问答、写作和 Agent 任务。
- DeepSeek-V3.2-Speciale(终极增强版):面向 AI 能力上限探索,性能媲美 Gemini-3.0-Pro,在 2025 IMO、IOI、ICPC 中均获金牌(IOI 排人类第 10,ICPC 排第 2)。仅提供临时 API,思考链长、Token 消耗大、成本高,不支持工具调用,也未优化日常对话,服务至 2025 年 12 月 15 日截止。
DeepSeek 这次引入的 DSA(稀疏注意力机制)换了个思路:不需要关注每一个字,只关注那些真正重要的部分。
它的核心是一个叫「闪电索引器」的东西。
这个索引器会快速给每个字打个分,然后只挑出分数最高的那些字来计算注意力。就像你在 1000 人的群里,先用搜索功能筛出名字里带「张」的,然后再从这 50 个人里找你要的那个张三,效率立马上去了。
更聪明的是,闪电索引器使用的计算资源很少,而且支持 FP8 精度计算 (一种低精度但高效的计算方式),所以它本身不会成为新的性能瓶颈。
是可扩展。这个框架允许后训练阶段的计算预算大幅超过传统做法,从而释放出模型的高级能力。
具体训练流程分两步走。
第一步是「专家蒸馏」。他们在数学、编程、逻辑推理、智能体任务等六大专业领域,分别训练出专用的专家模型。每个专家模型都在大规模强化学习计算下训练完成,而且分别针对「思维模式」(长链式思考) 和「非思维模式」(直接回答) 生成训练数据。
专家模型训练好后,就用它们来生成最终模型的训练数据。实验结果显示,用这些专家蒸馏数据训练出的模型,性能只是略低于对应的专家模型,而且这点差距在后续的强化学习训练中可以被抹平。
第二步是「混合强化学习训练」。DeepSeek 继续使用 GRPO(Group Relative Policy Optimization) 作为主要训练算法,把推理任务、智能体任务和人类偏好对齐任务统一整合到一个强化学习阶段。
这种统一训练的好处是既能提升不同任务领域的性能,又能避免传统多阶段训练中常见的「灾难性遗忘」问题。你可以把它理解为:AI 在学新技能的同时,不会把旧技能忘掉。
在推理和智能体任务中,他们用基于规则的结果奖励、输出长度惩罚、语言一致性奖励来引导模型学习。而在通用任务中,则用生成式奖励模型,根据每个提示分别定义评价标准。
V3.2 就是在这种混合强化学习下,经过上千步训练得到的稳定版本。而 Speciale 版本则更激进,它只在推理任务数据上训练,降低了输出长度惩罚,还引入了 DeepSeekMath-V2 的数据集和奖励机制,进一步增强数学证明能力。
发表回复