语音(audio)

创建语音

post
请求体
modelstring必填

可用的 TTS 模型之一:tts-1 或 tts-1-hd

inputstring必填

要生成音频的文本。最大长度为4096个字符。

voicestring必填

生成音频时使用的语音。支持的语音有:alloy、echo、fable、onyx、nova 和 shimmer。

response_formatstring可选

默认为 mp3 音频的格式。支持的格式有:mp3、opus、aac 和 flac。

speednumber可选

默认为 1 生成的音频速度。选择0.25到4.0之间的值。1.0是默认值。

响应
chevron-right
200成功
application/json
object可选
post
/v1/audio/speech
200成功

创建转录

post
请求体
filestring · binary必填

要转录的音频文件对象(不是文件名),格式为:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav 或 webm。

modelstring必填

要使用的模型 ID。目前只有 whisper-1 是可用的。

languagestring可选

输入音频的语言。以 ISO-639-1 格式提供输入语言可以提高准确性和延迟。

promptstring可选

一个可选的文本来指导模型的风格或继续之前的音频段落。提示应该与音频语言匹配。

response_formatstring可选

默认为 json 转录输出的格式,可选择:json、text、srt、verbose_json 或 vtt。

temperaturenumber可选

默认为 0 采样温度,between 0 和 1。更高的值像 0.8 会使输出更随机,而更低的值像 0.2 会使其更集中和确定性。如果设置为 0,模型将使用对数概率自动增加温度直到达到特定阈值。

Example: 0
响应
chevron-right
200成功
application/json
textstring必填
post
/v1/audio/transcriptions
200成功

创建翻译

post
请求体
filestring · binary必填

要翻译的音频文件对象(不是文件名),格式为:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav 或 webm。

modelstring必填

要使用的模型 ID。目前只有 whisper-1 是可用的。

promptstring可选

一个可选的文本,用于指导模型的风格或继续之前的音频段落。提示文本应该是英文。

response_formatstring可选

翻译结果的格式,可选择:json、text、srt、verbose_json 或 vtt。

temperaturenumber可选

默认为 0 采样温度,介于 0 和 1 之间。更高的值如 0.8 会使输出更随机,而较低的值如 0.2 会使其更聚焦和确定性。如果设置为 0,模型将使用对数概率自动提高温度直到达到特定阈值。

Example: 0
响应
chevron-right
200成功
application/json
textstring必填
post
/v1/audio/translations
200成功

最后更新于