ワークフローを選ぶ
| ワークフロー | Endpoint | 使う場面 |
|---|---|---|
| テキスト読み上げ | POST /v1/audio/speech | テキストから音声ファイルを作る場合。 |
| 文字起こし | POST /v1/audio/transcriptions | 音声ファイルからテキストを得る場合。 |
| 音声翻訳 | POST /v1/audio/translations | 音声ファイルから翻訳済みテキストを得る場合。 |
| リアルタイムセッション | GET /v1/realtime | 双方向ストリーミング音声またはリアルタイムイベントが必要な場合。 |
モデルを確認する
モデル一覧をクライアントに固定しないでください。音声生成と文字起こしは推奨モデルを使い、リアルタイム対応は socket を開く前にモデル詳細で確認します。同期オーディオリクエスト
音声生成、文字起こし、翻訳は HTTP リクエスト内で直接返ります。大きな入力は一般的なクライアントの timeout を超えることがあるため、余裕のある timeout と request ID の保存を推奨します。リアルタイムセッション
WebSocket では query string に model、Authorization header に API key を入れます。選択したリアルタイムモデルのドキュメントに沿ったイベント形式を使い、完了時に socket を閉じます。状態管理
- 生成済み音声ファイルを保存し、更新時に同じリクエストを再実行しない。
- 文字起こしと翻訳は同期でもアップロード中・処理中の状態を表示する。
- リアルタイムでは close イベントを処理し、ユーザーが新しいセッションを始めた時だけ再接続する。
- API key、非公開 URL、アカウント秘密情報を音声テキスト入力に入れない。