Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.tokenlab.sh/llms.txt

Use this file to discover all available pages before exploring further.

Cuerpo de la solicitud

Tiempo de espera de solicitudes síncronas: este endpoint no-chat espera a que el modelo enrutado termine. Entradas grandes, audio largo o lotes grandes pueden superar los valores predeterminados habituales de 30s del cliente, así que configura el timeout de tu cliente HTTP en al menos 120s.
file
file
requerido
Archivo de audio para transcribir. Formatos compatibles: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
model
string
predeterminado:"whisper-1"
Modelo que se utilizará. Actualmente solo se admite whisper-1.
language
string
Idioma del audio en formato ISO-639-1 (p. ej., en, zh, ja).
prompt
string
Texto opcional para guiar el estilo del modelo o continuar un segmento anterior.
response_format
string
predeterminado:"json"
Formato de salida: json, text, srt, verbose_json, vtt.
temperature
number
predeterminado:"0"
Temperatura de muestreo (0 a 1).
timestamp_granularities
array
Granularidad de las marcas de tiempo: word y/o segment. Requiere verbose_json.

Respuesta

text
string
El texto transcrito.
Para verbose_json:
task
string
Siempre transcribe.
language
string
Idioma detectado.
duration
number
Duración del audio en segundos.
segments
array
Segmentos de la transcripción con marcas de tiempo.
words
array
Marcas de tiempo a nivel de palabra (si se solicitan).
curl -X POST "https://api.tokenlab.sh/v1/audio/transcriptions" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F file="@audio.mp3" \
  -F model="whisper-1" \
  -F language="en"
{
  "text": "Hello, this is a test of the transcription API."
}

Traducción

Para traducir audio al inglés, utiliza el endpoint de traducciones:
response = client.audio.translations.create(
    model="whisper-1",
    file=audio_file
)