Documentation Index
Fetch the complete documentation index at: https://docs.tokenlab.sh/llms.txt
Use this file to discover all available pages before exploring further.
請求主體
同步請求逾時: 這個非聊天端點會等待路由到的模型完成處理。大型輸入、長音訊或大量批次可能超過常見的 30s 用戶端預設逾時,因此請將 HTTP 用戶端逾時設定為至少120s。
要轉錄的音訊檔案。支援格式:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm。
要使用的模型。目前僅支援
whisper-1。音訊的語言,採用 ISO-639-1 格式(例如:
en、zh、ja)。可選文字,用於引導模型的風格或延續前一段內容。
輸出格式:
json、text、srt、verbose_json、vtt。取樣溫度(0 到 1)。
時間戳記粒度:
word 和/或 segment。需要 verbose_json。回應
轉錄後的文字。
verbose_json:
一律為
transcribe。偵測到的語言。
音訊時長(秒)。
含時間戳記的轉錄片段。
詞級時間戳記(若有請求)。