1. 音频(Audio)
简体中文
  • English
  • 简体中文
  • OpenAI官方库使用教程
  • 前言(必读)
  • 获取 Base URL 和 API Key
  • 聊天(chat)
    • 所有对话模型均兼容 OpenAI 格式
    • Realtime (实时语音、对话)
    • 聊天完成对象
    • 聊天完成块对象
    • 视觉语言模型介绍
    • Claude 官方格式
      • 所有 OpenAI格式 LLM 模型均支持 Claude 官方格式
      • Messages(官方Anthropic格式)
      • Messages(识图)
      • Messages(思考)
      • Messages(函数调用)
    • Gemini 官方格式
      • Gemini 官方格式
    • Chat(聊天)
      POST
    • Chat(分析图片)
      POST
    • Chat(分析视频)
      POST
    • Chat(结构化输出)
      POST
    • Chat(修改图片)
      POST
    • Chat(生成图片)
      POST
    • Chat(工具tools调用)
      POST
    • Chat(Claude Thinking)
      POST
    • Chat(Claude Thinking)
      POST
  • 聊天(Responses)
    • Responses API与Chat API对比
    • 创建模型响应
      POST
    • 创建模型响应(流式返回)
      POST
    • 创建模型响应(调用联网)
      POST
  • 绘图模型
    • 生图模型简介
    • Openai Dall-e 格式
      • Dalle 格式介绍
    • Nano-banana 官方格式
    • Gemini Image Generation (Native)
  • 视频模型
    • 视频生成模型简介
    • 统一格式接口
      • 统一格式接口介绍
      • Google-Veo
        • Veo文生视频
        • Veo图生视频
        • Veo 生成视频查询
        • Veo 任务结果查询
      • Sora2 视频
        • Sora生成
        • Sora 生成视频查询
        • Sora 任务结果查询
  • RAG(嵌入,重排序)
    • 嵌入(Embeddings)
      • 嵌入对象
      • 创建嵌入
      • 多模态向量嵌入
    • 重排序(Reranker)
      • 介绍
      • rerank
  • 音频(Audio)
    • suno
      • Suno文生歌
      • GoAmz配置
      • 音乐版本以及生成参数介绍
      • 场景一: 灵感模式
      • 场景二: 自定义.歌词歌名
      • 场景三: 纯音乐.自定义
      • 场景四: 纯音乐.灵感模式
      • 场景五: 续写自定义音频
      • 场景六: 续写音乐并获取完整音乐
    • Audio接口 / 输出
      POST
    • Audio接口 / 输入
      POST
    • 文本转语音 / TTS
      POST
    • 语音转文本 / whisper-1
      POST
    • 语音转文本 / gpt-4o-transcribe
      POST
  • OpenAI
    • Chat模型
    • dall-e-3
    • Chat (o1-o4系列模型)
    • gpt-image-1
    • Image edit图片编辑
    • Analyze image分析图片
    • Analyze PDF分析PDF
    • o3-pro-responses
  • Gemini
    • gemini
    • Gemini JSON PDF
  • Schemas
    • GenerateContentRequest
  1. 音频(Audio)

文本转语音 / TTS

Developing
POST
{{base_url}}/v1/audio/speech
了解如何将文本转换为音频。
相关指南:https://platform.openai.com/docs/guides/text-to-speech
使用 AI 模型将文本转换为自然语音,支持多种语音风格和输出格式
​
介绍
文本转语音(TTS)API 基于先进的生成 AI 模型,可以将输入的文本转换为逼真的语音音频。支持多种用途:
为书面博客文章配音
生成多种语言的语音音频
提供实时音频输出流
可用模型列表:
gpt-4o-audio-preview —— OpenAI 最新的音频生成模型,支持对话式音频生成
gpt-4o-mini-tts —— 智能实时应用的首选模型,支持高级语音控制,可以通过提示词控制多种语音特性:
口音 (Accent)
情感范围 (Emotional range)
语调 (Intonation)
印象/风格 (Impressions)
语速 (Speed of speech)
语调 (Tone)
轻声说话 (Whispering)
tts-1-hd —— 高清音质的上一代 TTS 模型
tts-1 —— 标准 TTS 模型,平衡质量和速度
性能建议: 为获得最快的响应时间,建议使用 wav 或 pcm 作为响应格式。对于高质量音频,建议使用 tts-1-hd;对于更快的生成速度,使用 tts-1;对于智能语音应用,推荐使用 gpt-4o-mini-tts。
音色预览: 你可以在 OpenAI.fm 试听不同音色效果。
模型调用方式
标准 TTS 模型(tts-1, tts-1-hd)
使用 /v1/audio/speech 端点,通过 client.audio.speech.create() 方法调用。
​
gpt-4o-mini-tts 模型
使用 /v1/audio/speech 端点,支持 instructions 参数进行高级语音控制。
gpt-4o-audio-preview 模型
使用 /v1/chat/completions 端点,需要设置 modalities: ["text", "audio"] 和 audio 配置。

Request

Header Params

Body Params application/jsonRequired

Examples

Responses

🟢200成功
application/json
Body

Request Request Example
Shell
JavaScript
Java
Swift
curl --location -g --request POST '{{base_url}}/v1/audio/speech' \
--header 'Authorization: {{you-apikey}}' \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy",
    "response_format": "wav"
}'
Response Response Example
{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy"
}
Modified at 2025-11-18 23:53:41
Previous
Audio接口 / 输入
Next
语音转文本 / whisper-1
Built with