什么都要AI

OpenAI发布图像生成模型GPT-image -1

2025年4月24日，OpenAI发布图像生成模型GPT-image-1，并面向全部开发者开放API。以下是对该模型的具体介绍：

核心亮点

多图生成：通过设置参数可进行图像生成端点，根据文本提示创建出质量高、高保真且视觉风格丰富多样的图像，能满足不同创作需求。
图像编辑：可利用用户上传的一个或多个参考图像来创建新图像。
图像变体：能利用精确的图像编辑功能对用户上传的图像和蒙版进行“修复”操作，蒙版透明区域将被替换，黑色区域保持不变，且蒙版和要编辑的图像必须格式和大小相同，蒙版图像还必须包含alpha通道。

功能特性

支持高级定制：开发者可指定质量、大小、格式、压缩以及是否需要透明背景来自定义输出。还可设置参数在单个请求中一次生成多个图像。目前图像生成功能仅可通过Image API使用，OpenAI正努力将支持扩展到Responses API。
可分级控制敏感度：开发者可以使用“moderation”参数控制审核的严格程度，该参数支持“auto”（默认，标准过滤）和“low”（限制较少的过滤）两个值。
生成效率优化：单张图像生成耗时从ChatGPT时期的平均3.2秒缩短至0.8秒。
多格式输出支持：输出格式扩展至静态图、动态图、MP4、PSD等格式。
渲染质量分级：将分辨率细化为三档，进行渲染质量分级。
智能降噪：开发平衡算法，做到智能降噪。
文本渲染升级：优化图像中的文字生成，确保字体清晰、排版自然，适合海报与广告素材创作。

应用场景

数字艺术与插图：适合游戏、动画与出版行业，艺术家可快速生成概念艺术、角色设计或场景插图。
广告与电商：可生成品牌宣传海报、产品展示图或个性化营销素材，提升视觉营销效率。
教育与培训：能生成教学用插图或历史场景重现，增强课程内容的吸引力和可理解性。
自动化工作流：开发者可将其嵌入内容生成管道，自动化生成社交媒体配图或设计原型。

限制

处理复杂提示耗时较长：处理复杂提示可能需长达2分钟，存在消息延迟现象。
文本渲染仍有不足：相比DALL·E系列虽有显著改进，但在精确的文本放置和清晰度方面仍可能存在问题。
多轮生成一致性问题：在多轮生成中，对于重复出现的角色或品牌元素，可能偶尔难以保持视觉一致性。
构图控制存在困难：在结构化或对布局敏感的构图中，精确放置元素可能仍有困难。

价格

采用按Token计费模式，分为文本输入、图像输入与输出三类。文本输入每100万Token 5美元，图像输入每100万Token 10美元，图像输出每100万Token 40美元。按实际使用情况估算，生成低质量1024×1024图像成本约为每张0.02美元，中等质量图像约为每张0.07美元，高质量图像约为每张0.19美元。

已发布

2025年4月25日

分类

来自

什么都要AI

标签：

ChatGPT, OpenAI