Claude 3.7 Sonnet 发布,开启混合推理能力

Anthropic 于2025年2月25日正式发布「Claude 3.7 Sonnet」,该模型被定位为公司迄今为止最智能的AI模型,同时也是市场上首款具备混合推理能力的模型。以下是其核心特性与技术亮点:

1. 混合推理模式

模型首创「标准思考」与「扩展思考」双模式机制:

  • 标准模式:提供近乎即时的响应,适用于日常对话与简单任务;
  • 扩展模式:展示分步推理过程,深度处理复杂逻辑问题,用户可通过API对思考时长及token用量进行精细控制;
  • 设计理念强调推理能力应内置于核心模型,而非独立训练不同模型,实现更无缝的用户体验。

2. 企业场景优化

聚焦企业级应用,在编码与前端开发领域表现显著提升:

  • 在软件能力评测SWE-bench Verified中,其解决真实GitHub问题的能力超越Claude 3.5 Sonnet、OpenAI o3-mini及DeepSeek R1;
  • 配套发布Claude Code工具(研究预览版),支持开发者通过终端委托复杂工程任务,如代码生成、调试与测试用例编写。

3. 测试表现与特性

  • 在TAU-bench等评估真实交互场景的测试中达到SOTA水平;
  • 展现独特代理能力:通过数万次交互成功完成《宝可梦红色版》游戏挑战,击败三位道馆馆主,而前代模型无法离开起始场景;
  • 数学竞赛等任务得分低于DeepSeek R1,显示能力侧重企业应用而非全领域刷榜。

4. 发布与定价

  • 即日起通过Claude产品线、Anthropic API、Amazon Bedrock及Google Cloud Vertex AI提供服务;
  • 定价与3.5 Sonnet持平:输入每百万token 3美元,输出15美元;
  • 免费用户不可用扩展模式,需订阅Pro/Team/Enterprise版本或API。

5. 安全性改进

  • 相较前代模型,有害请求识别更精准,误拒率降低45%。

该版本标志着Anthropic从通用AGI探索转向垂直行业深耕,通过混合推理架构与专用工具链强化企业客户服务能力。


已发布

分类

来自

标签: