Documentation Index
Fetch the complete documentation index at: https://docs.tokenlab.sh/llms.txt
Use this file to discover all available pages before exploring further.
Cuerpo de la solicitud
Tiempo de espera de solicitudes síncronas: este endpoint no-chat espera a que el modelo enrutado termine. Entradas grandes, audio largo o lotes grandes pueden superar los valores predeterminados habituales de 30s del cliente, así que configura el timeout de tu cliente HTTP en al menos120s.
Archivo de audio para transcribir. Formatos compatibles: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
Modelo que se utilizará. Actualmente solo se admite
whisper-1.Idioma del audio en formato ISO-639-1 (p. ej.,
en, zh, ja).Texto opcional para guiar el estilo del modelo o continuar un segmento anterior.
Formato de salida:
json, text, srt, verbose_json, vtt.Temperatura de muestreo (0 a 1).
Granularidad de las marcas de tiempo:
word y/o segment. Requiere verbose_json.Respuesta
El texto transcrito.
verbose_json:
Siempre
transcribe.Idioma detectado.
Duración del audio en segundos.
Segmentos de la transcripción con marcas de tiempo.
Marcas de tiempo a nivel de palabra (si se solicitan).