OpenAI发布图像生成模型GPT-image -1

2025年4月24日,OpenAI发布图像生成模型GPT-image-1,并面向全部开发者开放API。以下是对该模型的具体介绍:

核心亮点

  • 多图生成:通过设置参数可进行图像生成端点,根据文本提示创建出质量高、高保真且视觉风格丰富多样的图像,能满足不同创作需求。
  • 图像编辑:可利用用户上传的一个或多个参考图像来创建新图像。
  • 图像变体:能利用精确的图像编辑功能对用户上传的图像和蒙版进行“修复”操作,蒙版透明区域将被替换,黑色区域保持不变,且蒙版和要编辑的图像必须格式和大小相同,蒙版图像还必须包含alpha通道。

功能特性

  • 支持高级定制:开发者可指定质量、大小、格式、压缩以及是否需要透明背景来自定义输出。还可设置参数在单个请求中一次生成多个图像。目前图像生成功能仅可通过Image API使用,OpenAI正努力将支持扩展到Responses API。
  • 可分级控制敏感度:开发者可以使用“moderation”参数控制审核的严格程度,该参数支持“auto”(默认,标准过滤)和“low”(限制较少的过滤)两个值。
  • 生成效率优化:单张图像生成耗时从ChatGPT时期的平均3.2秒缩短至0.8秒。
  • 多格式输出支持:输出格式扩展至静态图、动态图、MP4、PSD等格式。
  • 渲染质量分级:将分辨率细化为三档,进行渲染质量分级。
  • 智能降噪:开发平衡算法,做到智能降噪。
  • 文本渲染升级:优化图像中的文字生成,确保字体清晰、排版自然,适合海报与广告素材创作。

应用场景

  • 数字艺术与插图:适合游戏、动画与出版行业,艺术家可快速生成概念艺术、角色设计或场景插图。
  • 广告与电商:可生成品牌宣传海报、产品展示图或个性化营销素材,提升视觉营销效率。
  • 教育与培训:能生成教学用插图或历史场景重现,增强课程内容的吸引力和可理解性。
  • 自动化工作流:开发者可将其嵌入内容生成管道,自动化生成社交媒体配图或设计原型。

限制

  • 处理复杂提示耗时较长:处理复杂提示可能需长达2分钟,存在消息延迟现象。
  • 文本渲染仍有不足:相比DALL·E系列虽有显著改进,但在精确的文本放置和清晰度方面仍可能存在问题。
  • 多轮生成一致性问题:在多轮生成中,对于重复出现的角色或品牌元素,可能偶尔难以保持视觉一致性。
  • 构图控制存在困难:在结构化或对布局敏感的构图中,精确放置元素可能仍有困难。

价格

采用按Token计费模式,分为文本输入、图像输入与输出三类。文本输入每100万Token 5美元,图像输入每100万Token 10美元,图像输出每100万Token 40美元。按实际使用情况估算,生成低质量1024×1024图像成本约为每张0.02美元,中等质量图像约为每张0.07美元,高质量图像约为每张0.19美元。


已发布

分类

来自

标签: