메인 콘텐츠로 건너뛰기

Documentation Index

Fetch the complete documentation index at: https://docs.tokenlab.sh/llms.txt

Use this file to discover all available pages before exploring further.

요청 본문

동기 요청 타임아웃: 이 비채팅 엔드포인트는 라우팅된 모델이 완료될 때까지 기다립니다. 큰 입력, 긴 오디오, 큰 배치는 일반적인 30s 클라이언트 기본값을 초과할 수 있으므로 HTTP 클라이언트 타임아웃을 최소 120s 로 설정하세요.
file
file
필수
전사할 오디오 파일입니다. 지원 형식: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
model
string
기본값:"whisper-1"
사용할 모델입니다. 현재는 whisper-1만 지원됩니다.
language
string
ISO-639-1 형식의 오디오 언어입니다(예: en, zh, ja).
prompt
string
모델의 스타일을 유도하거나 이전 세그먼트를 이어가기 위한 선택적 텍스트입니다.
response_format
string
기본값:"json"
출력 형식: json, text, srt, verbose_json, vtt.
temperature
number
기본값:"0"
샘플링 temperature(0~1).
timestamp_granularities
array
타임스탬프 세분성: word 및/또는 segment. verbose_json이 필요합니다.

응답

text
string
전사된 텍스트입니다.
verbose_json의 경우:
task
string
항상 transcribe입니다.
language
string
감지된 언어입니다.
duration
number
초 단위 오디오 길이입니다.
segments
array
타임스탬프가 포함된 전사 세그먼트입니다.
words
array
단어 수준 타임스탬프입니다(요청한 경우).
curl -X POST "https://api.tokenlab.sh/v1/audio/transcriptions" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F file="@audio.mp3" \
  -F model="whisper-1" \
  -F language="en"
{
  "text": "Hello, this is a test of the transcription API."
}

번역

오디오를 영어로 번역하려면 translations 엔드포인트를 사용하세요:
response = client.audio.translations.create(
    model="whisper-1",
    file=audio_file
)