Documentation Index
Fetch the complete documentation index at: https://docs.tokenlab.sh/llms.txt
Use this file to discover all available pages before exploring further.
请求体
同步请求超时: 这个非聊天端点会等待路由到的模型完成处理。大输入、长音频或大批量请求可能超过常见的 30s 客户端默认超时,因此请将 HTTP 客户端超时设置为至少120s。
要转录的音频文件。支持的格式:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm。
要使用的模型。目前仅支持
whisper-1。音频的语言,采用 ISO-639-1 格式(例如:
en、zh、ja)。可选文本,用于引导模型的风格或续接上一段内容。
输出格式:
json、text、srt、verbose_json、vtt。采样温度(0 到 1)。
时间戳粒度:
word 和/或 segment。需要 verbose_json。响应
转录后的文本。
verbose_json:
始终为
transcribe。检测到的语言。
音频时长,单位为秒。
带时间戳的转录片段。
词级时间戳(如已请求)。