词元无忧文档
    • 概况
    • Codex 全教程
    • Claude Code 全教程
    • GPT-Image-2 生图
    • Banana 生图

    GPT-Image-2 生图

    gpt-image-2#

    gpt-image-2 是站点提供的 OpenAI GPT Image 图像生成模型。它通过 OpenAI Image API 兼容接口接入,适合高质量文生图、图像编辑、多参考图融合、商品图、海报、设计稿和需要灵活像素尺寸的生产图像场景。与 Gemini 图像模型不同,gpt-image-2 使用 OpenAI 风格的 /v1/images/* 路径,图片尺寸使用 WxH 像素或 auto,不是 1K、2K、4K 分辨率桶。

    1. 模型基本信息#

    项目说明
    模型 IDgpt-image-2
    接口类型OpenAI Image API 兼容接口
    版本状态以站点模型配置、上游可用性和上游账号权限为准
    主要能力文生图、图像编辑、多参考图、局部编辑、文字渲染、灵活像素尺寸输出
    默认服务地址https://api.token5u.cn

    调用路径#

    文生图:
    图像编辑:
    示例:
    https://api.token5u.cn/v1/images/generations
    https://api.token5u.cn/v1/images/edits

    请求头#

    参数类型必填说明
    Authorizationstring是Bearer Token,格式为 Bearer YOUR_API_KEY。
    Content-Typestring是文生图通常为 application/json;上传图片编辑时为 multipart/form-data。

    2. 文生图入参规范#

    请求体#

    {
      "model": "gpt-image-2",
      "prompt": "Create a premium product poster for a transparent perfume bottle on wet black stone, with crisp studio lighting and elegant typography.",
      "n": 1,
      "size": "1536x1024",
      "quality": "auto",
      "output_format": "png",
      "moderation": "auto"
    }

    顶层参数#

    参数类型必填默认值说明
    modelstring是-固定传 gpt-image-2。
    promptstring是-文本 prompt。建议写清主体、场景、材质、光线、构图、风格和需要渲染的文字。
    ninteger否1返回图片数量。建议生产调用先保持 1,便于控制延迟和成本。
    sizestring否auto输出尺寸。可传 auto 或满足约束的 宽x高 像素值,例如 1024x1024、1536x1024、1024x1536。
    qualitystring否auto渲染质量,可选 auto、low、medium、high。草稿可用 low,最终资产建议使用 medium 或 high。
    output_formatstring否png输出格式,可选 png、jpeg、webp。关注延迟和体积时可优先考虑 jpeg。
    output_compressioninteger否-JPEG/WebP 压缩比例,范围 0 到 100;仅在 output_format 为 jpeg 或 webp 时有意义。
    backgroundstring否auto背景策略。gpt-image-2 当前不支持 transparent,不要传透明背景。
    moderationstring否auto内容过滤强度,可选 auto、low。
    response_formatstring否渠道默认网关扩展参数,非 OpenAI 官方字段。控制网关返回图片的形态,可选 b64_json、url;其他取值会被网关静默归一为 url。默认值由渠道配置决定,未配置时使用 url。当用户值与上游实际返回形态不一致时,网关会自动转换(URL 下载并 base64 编码,或 base64 上传至对象存储后返回 URL)。

    size 尺寸规则#

    gpt-image-2 支持动态像素尺寸,常用值如下:
    场景推荐值
    自动选择auto
    正方形1024x1024、2048x2048
    横图1536x1024、2048x1152、3840x2160
    竖图1024x1536、2160x3840
    自定义尺寸必须同时满足:
    约束规则
    最大边长宽和高都必须小于或等于 3840px。
    边长倍数宽和高都必须是 16px 的倍数。
    宽高比长边与短边比例不能超过 3:1。
    总像素总像素不能小于 655360,不能大于 8294400。
    超过 2560x1440(3686400 像素)的输出通常可视为 2K 以上实验性尺寸,建议先做小批量验证再进入生产流量。

    3. 图生图和图像编辑入参规范#

    /v1/images/edits 同时支持以下两种方式上传参考图:
    方式路径Content-Type图片参数
    二进制上传/v1/images/editsmultipart/form-dataimage[]
    JSON + URL/Base64/v1/images/editsapplication/jsonimages(URL 或 base64 字符串数组)

    image[] 二进制请求#

    参数类型必填说明
    modelstring是固定传 gpt-image-2。
    promptstring是编辑指令。建议说明保留哪些元素、修改哪些区域、目标风格和文字要求。
    image[]file[]是输入图片二进制流。可传一张待编辑图,也可传多张参考图。
    maskfile否局部编辑遮罩。多图场景下遮罩应用于第一张图片。
    sizestring否输出尺寸,规则同文生图。
    qualitystring否可选 auto、low、medium、high。
    output_formatstring否可选 png、jpeg、webp。
    output_compressioninteger否JPEG/WebP 压缩比例,范围 0 到 100。
    moderationstring否可选 auto、low。
    response_formatstring否网关扩展参数,非 OpenAI 官方字段。同文生图,可选 b64_json、url,无效值会被静默归一为 b64_json。
    SDK 调用时字段通常名为 image,可以传文件数组;cURL/multipart 请求中使用重复的 image[] 表单字段。

    images JSON 请求(URL 或 base64)#

    参数类型必填说明
    modelstring是固定传 gpt-image-2。
    promptstring是编辑指令。
    imagesarray是参考图列表。每个元素可以是 HTTP/HTTPS URL、data:image/...;base64,... data URL、纯 base64 字符串,或 {"image_url": "..."} / {"url": "..."} 对象形式。URL 会由网关下载,等价于 image[] 文件上传。
    sizestring否输出尺寸,规则同文生图。
    qualitystring否可选 auto、low、medium、high。
    response_formatstring否网关扩展参数。同 image[] 二进制请求。

    mask 要求#

    要求说明
    尺寸mask 必须和待编辑图片尺寸一致。
    格式mask 必须和待编辑图片格式一致。
    大小单个图片或遮罩文件应小于 50MB。
    透明通道mask 需要包含 alpha 通道。
    精度GPT Image 会将 mask 作为提示引导,但不保证完全逐像素贴合遮罩形状。
    gpt-image-2 对图片输入默认按高保真处理,不需要也不允许通过 input_fidelity 调低保真度。包含参考图或待编辑图的请求会产生图片输入 tokens,成本通常高于纯文生图。

    4. 出参规范#

    成功响应为 OpenAI ImagesResponse:
    {
      "created": 1777347817,
      "data": [
        {
          "b64_json": "BASE64_IMAGE_DATA",
          "revised_prompt": "..."
        }
      ],
      "model": "gpt-image-2",
      "usage": {
        "total_tokens": 772,
        "input_tokens": 212,
        "output_tokens": 560,
        "input_tokens_details": {
          "text_tokens": 120,
          "image_tokens": 92
        }
      }
    }

    响应字段#

    参数类型说明
    createdinteger响应创建时间戳。
    dataImage[]图片结果列表。站点会优先返回 b64_json,便于直接保存为文件。
    modelstring实际模型 ID,是否返回取决于上游。
    usageobjecttoken 使用量统计。计费通常需要同时关注文本输入、图片输入和图片输出 tokens。

    Image#

    参数类型说明
    b64_jsonstringBase64 编码图片数据。当 response_format 解析为 b64_json(默认)时返回该字段。
    urlstring图片 URL。当 response_format 解析为 url 时返回该字段;网关会按需将上游 base64 上传至对象存储并填入该 URL。
    revised_promptstring上游可能返回的改写后 prompt。

    5. 接入代码示例#

    图片生成 cURL#

    图像编辑 cURL#

    6. 官方参考#

    OpenAI Image generation guide
    OpenAI Images API reference
    修改于 2026-06-15 07:15:28
    上一页
    Claude Code 全教程
    下一页
    Banana 生图
    Built with