聊天(chat)
Copy Page
简体中文
English
简体中文
OpenAI官方库使用教程
前言(必读)
获取 Base URL 和 API Key
聊天(chat)
所有对话模型均兼容 OpenAI 格式
Realtime (实时语音、对话)
聊天完成对象
聊天完成块对象
视觉语言模型介绍
Claude 官方格式
所有 OpenAI格式 LLM 模型均支持 Claude 官方格式
Messages(官方Anthropic格式)
Messages(识图)
Messages(思考)
Messages(函数调用)
Gemini 官方格式
Gemini 官方格式
Chat(聊天)
POST
Chat(分析图片)
POST
Chat(分析视频)
POST
Chat(结构化输出)
POST
Chat(修改图片)
POST
Chat(生成图片)
POST
Chat(工具tools调用)
POST
Chat(Claude Thinking)
POST
Chat(Claude Thinking)
POST
聊天(Responses)
Responses API与Chat API对比
创建模型响应
POST
创建模型响应(流式返回)
POST
创建模型响应(调用联网)
POST
绘图模型
生图模型简介
Openai Dall-e 格式
Dalle 格式介绍
Nano-banana 官方格式
POST
Gemini Image Generation (Native)
POST
视频模型
视频生成模型简介
统一格式接口
统一格式接口介绍
Google-Veo
Veo文生视频
Veo图生视频
Veo 生成视频查询
Veo 任务结果查询
Sora2 视频
Sora生成
Sora 生成视频查询
Sora 任务结果查询
RAG(嵌入,重排序)
嵌入(Embeddings)
嵌入对象
创建嵌入
多模态向量嵌入
重排序(Reranker)
介绍
rerank
音频(Audio)
suno
Suno文生歌
GoAmz配置
音乐版本以及生成参数介绍
场景一: 灵感模式
场景二: 自定义.歌词歌名
场景三: 纯音乐.自定义
场景四: 纯音乐.灵感模式
场景五: 续写自定义音频
场景六: 续写音乐并获取完整音乐
Audio接口 / 输出
Audio接口 / 输入
文本转语音 / TTS
语音转文本 / whisper-1
语音转文本 / gpt-4o-transcribe
OpenAI
Chat模型
dall-e-3
Chat (o1-o4系列模型)
gpt-image-1
Image edit图片编辑
Analyze image分析图片
Analyze PDF分析PDF
o3-pro-responses
Gemini
gemini
Gemini JSON PDF
Schemas
GenerateContentRequest
聊天(chat)
Copy Page
视觉语言模型介绍
使用场景
#
视觉语言模型(VLM)是一种能够同时接受视觉(图像)和语言(文本)两种模态信息输入的大语言模型。基于视觉语言模型,可以传入图像及文本信息,模型能够理解同时理解图像及上下文中的信息并跟随指令做出响应。如:
视觉内容解读:要求模型对图片中包含的信息进行解读、描述,如包含的事物、文字,事物的空间关系,图像的颜色、气氛等;
结合视觉内容及上下文,开展多轮会话;
部分替代 OCR 等传统机器视觉模型;
随着模型能力的持续提升,未来还可以用于视觉智能体、机器人等领域。
使用方式