OpenAI 今日正式发布 GPT-4o 的重大升级,此次更新聚焦四大核心功能优化,并新增原生多模态图像生成能力,同时面向付费用户全面开放。以下是具体更新内容:
一、四大核心功能升级
- 多指令解析优化
显著提升对复杂指令的解析能力,支持同时处理包含多重需求的复合任务。例如,用户可要求“总结报告→提取关键数据→生成可视化图表”,模型能分步骤精准响应。这一改进尤其适用于商业分析、项目管理等场景。 - 技术问题处理增强
强化对编程、工程类问题的解决能力,生成的代码和解决方案更精准、实用。开发者可通过模型快速调试代码或设计技术架构,效率提升显著。 - 逻辑推理与创造力提升
增强跨领域知识融合能力,支持更复杂的逻辑推理和创新性任务。例如,在商业分析中结合行业趋势与财务数据生成策略,或在创意写作中融合多学科知识构建独特叙事。 - 交互界面精简
减少表情符号使用频率,优化专业场景的对话体验。法律、医疗等严肃领域应答更严谨,界面流畅度与专业性进一步提升。
二、原生多模态图像生成
- 吉卜力风格图像生成
用户可通过自然语言描述生成吉卜力动画风格的图像(如电影《千与千寻》风格),并支持自定义宽高比、色号等参数。例如,输入“纽约街头的女巫阅读路牌”等复杂场景,模型可精准渲染文字与细节。 - 多模态能力整合
图像生成功能已整合至视频生成平台 Sora,支持基于文本生成动态视觉内容。此外,该功能取代了原有DALL-E 3模型,成为ChatGPT默认图像引擎。 - 技术突破
• 精准文字渲染:可生成包含清晰文字的海报、菜单、Logo等;
• 多对象绑定:单次生成支持10-20个物体的精确定位;
• 风格多样化:支持写实照片、手绘插画等风格转换。
三、性能与基准测试
- LMArena 基准测试表现
GPT-4o 总分跃居全球第二,超越上个月发布的 GPT-4.5。与2025年1月版本相比,评分提升30分,并在多个关键领域登顶:
• 数学能力:第14 → 第1;
• 复杂问题解决:第7 → 第1;
• 编程能力:第5 → 第1。 - 生成效率与质量
图像生成时间略有延长,但质量显著提升。OpenAI表示,用户“值得多等几秒”以获取更符合现实逻辑的生成结果。
四、开发者与用户支持
- API 开放
开发者可通过chatgpt-4o-latest API
访问新功能,旧版API将在未来几周内同步升级。 - 用户开放策略
• 付费用户:即日可体验全部更新功能;
• 免费用户:需等待数周后才可访问。