选择流程
| 流程 | 端点 | 适用场景 |
|---|---|---|
| 文本转语音 | POST /v1/audio/speech | 需要从文本生成音频文件。 |
| 转写 | POST /v1/audio/transcriptions | 需要从音频文件得到文本。 |
| 音频翻译 | POST /v1/audio/translations | 需要从音频文件得到翻译后的文本。 |
| 实时会话 | GET /v1/realtime | 需要双向流式音频或实时多模态事件。 |
发现模型
不要在客户端硬编码模型列表。语音和转写可使用推荐模型短名单;实时能力需要在打开 socket 前通过模型详情确认。同步音频请求
语音、转写和翻译会在 HTTP 请求中直接返回。大输入可能超过常见客户端超时,建议设置更宽松的超时并保存 request ID 方便排查。实时会话
打开 WebSocket 时在查询参数中传 model,并在 Authorization header 中传 API key。事件格式按所选实时模型文档发送;会话结束时主动关闭 socket。状态处理
- 保存生成的音频文件,刷新页面时不要重复发起同一请求。
- 转写和翻译即使是同步调用,也应展示上传和处理中状态。
- 实时会话要处理关闭事件,只有用户重新开始会话时才重连。
- 不要把 API key、私有 URL 或账户密钥放进音频文本输入。