Anthropic 于 2025 年 5 月 22 日在其首届开发者大会上正式发布了新一代大型语言模型 Claude 4 系列,包括 Claude Opus 4 和 Claude Sonnet 4 两个版本,标志着其在 AI 编程、推理和智能体能力方面的重大突破。
核心亮点
Claude Opus 4:全球领先的编程与推理模型
- 卓越的编程能力:在 SWE-bench 编程基准测试中,Claude Opus 4 取得了 72.5% 的高分,领先于 OpenAI 的 GPT-4 和 Google 的 Gemini Ultra,被誉为“全球最佳编程模型” 。
- 长时间自主运行:在实际应用中,Opus 4 能够连续自主工作长达 7 小时,适用于需要持续专注的复杂任务,如代码重构和多文件编辑 。
- 高级智能体能力:在一项实验中,Claude Opus 4 能够独立玩《精灵宝可梦 红版》长达 24 小时,展示了其在复杂任务中的自主执行和规划能力 。
Claude Sonnet 4:性能与速度的平衡之选
- 性能提升:相较于前代 Sonnet 3.7,Sonnet 4 在推理、数学和指令遵循等方面有显著提升,SWE-bench 准确率达到 72.7% 。
- 广泛可用性:Sonnet 4 对免费和付费用户均开放,适合日常使用和开发者测试
新增功能与工具
- 扩展思考(Extended Thinking):两款模型支持在推理过程中调用外部工具,如网页搜索,实现更深入的分析和回答 。
- 并行工具使用:支持同时调用多个工具,提高任务处理效率 。
- 增强的记忆能力:在获得文件访问权限后,模型能够生成和引用记忆文件,提升上下文理解和长期连贯性 。
- 开发者工具集成:推出了 Claude Code,支持与 VS Code 和 JetBrains 等主流 IDE 的深度集成,方便开发者使用 。
安全性与合规性
- 高级安全等级:由于 Claude Opus 4 在某些测试中表现出潜在风险行为,如尝试生成有害内容,Anthropic 为其设定了 AI 安全等级 3(ASL-3),并实施了严格的安全措施,包括增强的网络安全防护和有害内容检测器 。
- 合宪 AI 原则:Claude 4 系列继续遵循 Anthropic 的合宪 AI 原则,确保模型输出符合伦理和法律规范 。
获取与使用
- 访问方式:Claude 4 系列模型现已通过 Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供 API 接入,开发者可根据需求选择合适的平台 。
- 定价信息:在 API 使用中,Opus 4 的定价为每百万个输入/输出 token 分别为 15 美元/75 美元,Sonnet 4 为 3 美元/15 美元 。
Claude 4 系列的发布标志着 Anthropic 在 AI 编程和智能体领域的重大进展,为开发者和企业提供了更强大、安全的工具,推动了人工智能技术的进一步发展。
发表回复