DeepSeek V3 模型升级

DeepSeek 于 2025 年 3 月 24 日悄然发布 V3 模型升级版本 ​DeepSeek-V3-0324,此次升级虽为小版本迭代,但在技术性能、开源协议及行业影响上均有显著突破。

一、技术升级与架构优化

1、参数与架构调整

  • 模型参数从初代 V3 的 6710 亿小幅提升至 ​6850 亿,采用混合专家(MoE)架构,激活参数 370 亿,通过动态路由机制优化负载均衡,减少跨节点通信开销,提升训练效率。
  • 引入“偏差项”机制,动态调整专家负载,避免传统 MoE 模型的“路由崩溃”问题,同时保持计算效率。

2、知识更新与功能增强

  • 知识截止日期从 ​2023 年 12 月延至 2024 年 7 月,优化了 Function Call 功能,修复旧版函数调用问题。
  • 默认关闭“深度思考”模式,提升响应速度,适合快速迭代任务。

二、性能突破:编程与数学能力领跑

​1、编程能力对标顶尖闭源模型

  • 前端代码生成质量接近 ​Claude 3.7 Sonnet,测试中可一次性生成 ​800 行无错误代码​(如动态天气卡片、响应式网页),支持复杂逻辑与动画脚本设计。
  • 在开源评测平台 ​kcores-llm-arena 中,代码能力得分 ​328.3,超越普通版 Claude 3.7 Sonnet(322.3),接近其思维链版本(334.8)

2、数学推理与多任务处理

  • 在 2024 年高考数学测试中,V3-0324 正确解答全部 8 道选择题,且展示验证过程,体现强化的思维链(CoT)训练。
  • 多轮对话上下文理解能力提升,语言表达更自然流畅。


已发布

分类

来自

标签: