Anthropic 于2025年2月25日正式发布「Claude 3.7 Sonnet」,该模型被定位为公司迄今为止最智能的AI模型,同时也是市场上首款具备混合推理能力的模型。以下是其核心特性与技术亮点:
1. 混合推理模式
模型首创「标准思考」与「扩展思考」双模式机制:
- 标准模式:提供近乎即时的响应,适用于日常对话与简单任务;
- 扩展模式:展示分步推理过程,深度处理复杂逻辑问题,用户可通过API对思考时长及token用量进行精细控制;
- 设计理念强调推理能力应内置于核心模型,而非独立训练不同模型,实现更无缝的用户体验。
2. 企业场景优化
聚焦企业级应用,在编码与前端开发领域表现显著提升:
- 在软件能力评测SWE-bench Verified中,其解决真实GitHub问题的能力超越Claude 3.5 Sonnet、OpenAI o3-mini及DeepSeek R1;
- 配套发布Claude Code工具(研究预览版),支持开发者通过终端委托复杂工程任务,如代码生成、调试与测试用例编写。
3. 测试表现与特性
- 在TAU-bench等评估真实交互场景的测试中达到SOTA水平;
- 展现独特代理能力:通过数万次交互成功完成《宝可梦红色版》游戏挑战,击败三位道馆馆主,而前代模型无法离开起始场景;
- 数学竞赛等任务得分低于DeepSeek R1,显示能力侧重企业应用而非全领域刷榜。
4. 发布与定价
- 即日起通过Claude产品线、Anthropic API、Amazon Bedrock及Google Cloud Vertex AI提供服务;
- 定价与3.5 Sonnet持平:输入每百万token 3美元,输出15美元;
- 免费用户不可用扩展模式,需订阅Pro/Team/Enterprise版本或API。
5. 安全性改进
- 相较前代模型,有害请求识别更精准,误拒率降低45%。
该版本标志着Anthropic从通用AGI探索转向垂直行业深耕,通过混合推理架构与专用工具链强化企业客户服务能力。