DeepSeek 于 2025 年 3 月 24 日悄然发布 V3 模型升级版本 DeepSeek-V3-0324,此次升级虽为小版本迭代,但在技术性能、开源协议及行业影响上均有显著突破。
一、技术升级与架构优化
1、参数与架构调整
- 模型参数从初代 V3 的 6710 亿小幅提升至 6850 亿,采用混合专家(MoE)架构,激活参数 370 亿,通过动态路由机制优化负载均衡,减少跨节点通信开销,提升训练效率。
- 引入“偏差项”机制,动态调整专家负载,避免传统 MoE 模型的“路由崩溃”问题,同时保持计算效率。
2、知识更新与功能增强
- 知识截止日期从 2023 年 12 月延至 2024 年 7 月,优化了 Function Call 功能,修复旧版函数调用问题。
- 默认关闭“深度思考”模式,提升响应速度,适合快速迭代任务。
二、性能突破:编程与数学能力领跑
1、编程能力对标顶尖闭源模型
- 前端代码生成质量接近 Claude 3.7 Sonnet,测试中可一次性生成 800 行无错误代码(如动态天气卡片、响应式网页),支持复杂逻辑与动画脚本设计。
- 在开源评测平台 kcores-llm-arena 中,代码能力得分 328.3,超越普通版 Claude 3.7 Sonnet(322.3),接近其思维链版本(334.8)
2、数学推理与多任务处理
- 在 2024 年高考数学测试中,V3-0324 正确解答全部 8 道选择题,且展示验证过程,体现强化的思维链(CoT)训练。
- 多轮对话上下文理解能力提升,语言表达更自然流畅。