1. 聊天(chat)
简体中文
  • English
  • 简体中文
  • OpenAI官方库使用教程
  • 前言(必读)
  • 获取 Base URL 和 API Key
  • 聊天(chat)
    • 所有对话模型均兼容 OpenAI 格式
    • Realtime (实时语音、对话)
    • 聊天完成对象
    • 聊天完成块对象
    • 视觉语言模型介绍
    • Claude 官方格式
      • 所有 OpenAI格式 LLM 模型均支持 Claude 官方格式
      • Messages(官方Anthropic格式)
      • Messages(识图)
      • Messages(思考)
      • Messages(函数调用)
    • Gemini 官方格式
      • Gemini 官方格式
    • Chat(聊天)
      POST
    • Chat(分析图片)
      POST
    • Chat(分析视频)
      POST
    • Chat(结构化输出)
      POST
    • Chat(修改图片)
      POST
    • Chat(生成图片)
      POST
    • Chat(工具tools调用)
      POST
    • Chat(Claude Thinking)
      POST
    • Chat(Claude Thinking)
      POST
  • 聊天(Responses)
    • Responses API与Chat API对比
    • 创建模型响应
      POST
    • 创建模型响应(流式返回)
      POST
    • 创建模型响应(调用联网)
      POST
  • 绘图模型
    • 生图模型简介
    • Openai Dall-e 格式
      • Dalle 格式介绍
    • Nano-banana 官方格式
      POST
    • Gemini Image Generation (Native)
      POST
  • 视频模型
    • 视频生成模型简介
    • 统一格式接口
      • 统一格式接口介绍
      • Google-Veo
        • Veo文生视频
        • Veo图生视频
        • Veo 生成视频查询
        • Veo 任务结果查询
      • Sora2 视频
        • Sora生成
        • Sora 生成视频查询
        • Sora 任务结果查询
  • RAG(嵌入,重排序)
    • 嵌入(Embeddings)
      • 嵌入对象
      • 创建嵌入
      • 多模态向量嵌入
    • 重排序(Reranker)
      • 介绍
      • rerank
  • 音频(Audio)
    • suno
      • Suno文生歌
      • GoAmz配置
      • 音乐版本以及生成参数介绍
      • 场景一: 灵感模式
      • 场景二: 自定义.歌词歌名
      • 场景三: 纯音乐.自定义
      • 场景四: 纯音乐.灵感模式
      • 场景五: 续写自定义音频
      • 场景六: 续写音乐并获取完整音乐
    • Audio接口 / 输出
    • Audio接口 / 输入
    • 文本转语音 / TTS
    • 语音转文本 / whisper-1
    • 语音转文本 / gpt-4o-transcribe
  • OpenAI
    • Chat模型
    • dall-e-3
    • Chat (o1-o4系列模型)
    • gpt-image-1
    • Image edit图片编辑
    • Analyze image分析图片
    • Analyze PDF分析PDF
    • o3-pro-responses
  • Gemini
    • gemini
    • Gemini JSON PDF
  • Schemas
    • GenerateContentRequest
  1. 聊天(chat)

视觉语言模型介绍

使用场景#

视觉语言模型(VLM)是一种能够同时接受视觉(图像)和语言(文本)两种模态信息输入的大语言模型。基于视觉语言模型,可以传入图像及文本信息,模型能够理解同时理解图像及上下文中的信息并跟随指令做出响应。如:
视觉内容解读:要求模型对图片中包含的信息进行解读、描述,如包含的事物、文字,事物的空间关系,图像的颜色、气氛等;
结合视觉内容及上下文,开展多轮会话;
部分替代 OCR 等传统机器视觉模型;
随着模型能力的持续提升,未来还可以用于视觉智能体、机器人等领域。
​

使用方式#

对于 VLM 模型,可在调用 /chat/completions 接口时,构造包含 图片 url 或 base64 编码图片 的 message 消息内容进行调用。通过 detail 参数控制对图像的预处理方式。
​
2.1 关于图片细节控制参数说明
SiliconCloud 提供 low,high,auto 三个 detail 参数选项。 对于目前支持的模型,detail 不指定或指定为 high 时会采用 high(“高分辨率”)模式,而指定为 low 或者 auto 时会采用 low(“低分辨率”)模式。
​
2.2 包含图像的 message 消息格式示例
​
使用图片 url 形式
{
    "role": "user",
    "content":[
        {
            "type": "image_url",
            "image_url": {
                "url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/outputs/658c7434-ec12-49cc-90e6-fe22ccccaf62_00001_.png",
                "detail":"high"
            }
        },
        {
            "type": "text",
            "text": "text-prompt here"
        }
    ]
}
2.2 base64 形式
{
    "role": "user",
    "content":[
        {
            "type": "image_url",
            "image_url": {
                "url": f"data:image/jpeg;base64,{base64_image}",
                "detail":"low"
            }
        },
        {
            "type": "text",
            "text": "text-prompt here"
        }
    ]
}
2.3 多图片形式,其中每个图片可以是上述两种形式之一
请注意,DeepseekVL2系列模型适用于处理短上下文,建议最多传入2张图片。若传入超过2张图片,模型将自动调整图片尺寸为384*384,且指定的detail参数将无效。
{
    "role": "user",
    "content":[
        {
            "type": "image_url",
            "image_url": {
                "url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/outputs/658c7434-ec12-49cc-90e6-fe22ccccaf62_00001_.png",
            }
        },
        {
            "type": "image_url",
            "image_url": {
                "url": f"data:image/jpeg;base64,{base64_image}"
            }
        },
        {
            "type": "text",
            "text": "text-prompt here"
        }
    ]
}

视觉输入内容计费方式#

对于图片等视觉输入内容,模型会将其转化为 tokens,与文本信息一并作为模型输出的上下文信息,因此也会一并进行计费。不同模型的视觉内容转化方式不同。
图像输入以代币计量和收费,就像文本输入一样。给定图像的代币成本由两个因素决定:其大小和detail每个 image_url 块上的选项。所有图像detail: low每张成本为 85 个代币。detail: high首先将图像缩放以适合 2048 x 2048 正方形,并保持其纵横比。然后,对它们进行缩放,使图像的最短边长为 768px。最后,我们计算图像由多少个 512px 正方形组成。每个正方形的成本为170 个代币。另外85 个代币始终添加到最终总数中。
以下是一些证明上述内容的例子。
模式下的 1024 x 1024 方形图像detail: high花费 765 个代币
1024 小于 2048,因此没有初始调整大小。
最短边是 1024,因此我们将图像缩小到 768 x 768。
需要 4 个 512px 方形图块来表示图像,因此最终的 token 成本为170 * 4 + 85 = 765。
模式下 2048 x 4096 的图像detail: high花费 1105 个代币
我们将图像缩小到 1024 x 2048 以适合 2048 正方形。
最短边是 1024,因此我们进一步缩小到 768 x 1536。
需要 6 个 512px 的图块,因此最终的代币成本为170 * 6 + 85 = 1105。
4096 x 8192 的图像detail: low最多需要 85 个代币
无论输入大小,低细节图像都是固定成本。

限制#

虽然具有视觉功能的 GPT-4 功能强大,可用于多种情况,但了解该模型的局限性非常重要。以下是我们已知的一些局限性:
医学图像:该模型不适合解释 CT 扫描等专门的医学图像,不应用于医疗建议。
非英语:处理包含非拉丁字母(例如日语或韩语)文本的图像时,模型可能无法达到最佳效果。
小文本:放大图像中的文本以提高可读性,但避免裁剪重要细节。
旋转:模型可能会误解旋转/颠倒的文本或图像。
视觉元素:模型可能难以理解颜色或样式(如实线、虚线或点线)各异的图形或文本。
空间推理:该模型难以完成需要精确空间定位的任务,例如识别棋盘位置。
准确性:模型在某些情况下可能会生成不正确的描述或标题。
图像形状:该模型难以处理全景图像和鱼眼图像。
元数据和调整大小:该模型不处理原始文件名或元数据,并且图像在分析之前会调整大小,从而影响其原始尺寸。
计数:可以给出图像中物体的近似数量。
验证码:出于安全原因,我们实施了一个系统来阻止验证码的提交。

常问问题#

我可以用来gpt-4生成图像吗?
不,你可以用它dall-e-3来生成图像和gpt-4o,gpt-4o-mini或者gpt-4-turbo来理解图像。
我可以上传什么类型的文件?
我们目前支持 PNG (.png)、JPEG (.jpeg 和 .jpg)、WEBP (.webp) 和非动画 GIF (.gif)。
我可以上传的图像大小有限制吗?
是的,我们将每张图片的上传大小限制为 20MB。
我可以删除我上传的图片吗?
不会,图像经过模型处理后,我们会自动为您删除该图像。
在哪里可以了解有关 GPT-4 与 Vision 的更多信息?
您可以在GPT-4 和 Vision 系统卡中找到有关我们的评估、准备和缓解工作的详细信息。
我们进一步实施了阻止提交 CAPTCHA 的系统。
GPT-4 与 Vision 的速率限制如何运作?
我们在令牌级别处理图像,因此我们处理的每个图像都会计入您的每分钟令牌 (TPM) 限制。有关用于确定每张图片令牌数的公式的详细信息,请参阅计算成本部分。
带有 Vision 的 GPT-4 能理解图像元数据吗?
不,模型不接收图像元数据。
如果我的图像不清楚怎么办?
如果图像模糊不清,模型会尽力解读它。但结果可能不太准确。一个好的经验法则是,如果普通人无法在低/高分辨率模式下看到图像中的信息,那么模型也同样无法看到。
Modified at 2025-11-08 09:14:54
Previous
聊天完成块对象
Next
所有 OpenAI格式 LLM 模型均支持 Claude 官方格式
Built with