什么都要AI

OpenAI GPT-4o 定义多模态新标准：吉卜力风格生成与全场景效能跃升

OpenAI 今日正式发布 GPT-4o 的重大升级，此次更新聚焦四大核心功能优化，并新增原生多模态图像生成能力，同时面向付费用户全面开放。以下是具体更新内容：

一、四大核心功能升级

多指令解析优化
显著提升对复杂指令的解析能力，支持同时处理包含多重需求的复合任务。例如，用户可要求“总结报告→提取关键数据→生成可视化图表”，模型能分步骤精准响应。这一改进尤其适用于商业分析、项目管理等场景。
技术问题处理增强
强化对编程、工程类问题的解决能力，生成的代码和解决方案更精准、实用。开发者可通过模型快速调试代码或设计技术架构，效率提升显著。
逻辑推理与创造力提升
增强跨领域知识融合能力，支持更复杂的逻辑推理和创新性任务。例如，在商业分析中结合行业趋势与财务数据生成策略，或在创意写作中融合多学科知识构建独特叙事。
交互界面精简
减少表情符号使用频率，优化专业场景的对话体验。法律、医疗等严肃领域应答更严谨，界面流畅度与专业性进一步提升。

二、原生多模态图像生成

吉卜力风格图像生成
用户可通过自然语言描述生成吉卜力动画风格的图像（如电影《千与千寻》风格），并支持自定义宽高比、色号等参数。例如，输入“纽约街头的女巫阅读路牌”等复杂场景，模型可精准渲染文字与细节。
多模态能力整合
图像生成功能已整合至视频生成平台 Sora，支持基于文本生成动态视觉内容。此外，该功能取代了原有DALL-E 3模型，成为ChatGPT默认图像引擎。
技术突破
• 精准文字渲染：可生成包含清晰文字的海报、菜单、Logo等；
• 多对象绑定：单次生成支持10-20个物体的精确定位；
• 风格多样化：支持写实照片、手绘插画等风格转换。

三、性能与基准测试

LMArena 基准测试表现
GPT-4o 总分跃居全球第二，超越上个月发布的 GPT-4.5。与2025年1月版本相比，评分提升30分，并在多个关键领域登顶：
• 数学能力：第14 → 第1；
• 复杂问题解决：第7 → 第1；
• 编程能力：第5 → 第1。
生成效率与质量
图像生成时间略有延长，但质量显著提升。OpenAI表示，用户“值得多等几秒”以获取更符合现实逻辑的生成结果。

四、开发者与用户支持

API 开放
开发者可通过 chatgpt-4o-latest API 访问新功能，旧版API将在未来几周内同步升级。
用户开放策略
• 付费用户：即日可体验全部更新功能；
• 免费用户：需等待数周后才可访问。

🔗 打开网站

已发布

2025年3月28日

分类

来自

什么都要AI

标签：

ChatGPT, OpenAI