Accede mediante un contrato público unificado a texto a video, imagen a video, referencia a video, control de fotogramas inicial/final, control de movimiento y video a video.
TokenLab ofrece generación de video mediante una API unificada. La generación es asíncrona: envías una solicitud, recibes task_id y poll_url, y después consultas hasta obtener el resultado final.
Puedes ver el inventario público actual de modelos de video a través de la Models API o en la página de modelos.Si una respuesta de creación devuelve poll_url, llama exactamente a esa URL. Cuando apunte a /v1/tasks/{id}, trátala como el endpoint fijo canónico de estado.
El comportamiento del audio depende del modelo. En TokenLab, la familia Veo 3 se trata por defecto como audio activado cuando se omite output_audio. Otros modelos públicos son silenciosos por defecto o no exponen un interruptor de audio estable.En producción, es mejor usar URLs https públicas para imágenes, videos y audio. Los modelos compatibles siguen aceptando URLs data:, pero las URLs son más robustas para reintentos, observabilidad y depuración.
El contrato público de video de TokenLab se centra actualmente en estas operaciones:
text-to-video
image-to-video
reference-to-video
start-end-to-video
video-to-video
motion-control
El contrato también acepta audio-to-video y video-extension para flujos específicos de algunos modelos, pero en la lista pública generalmente habilitada de esta compilación no hay ningún modelo ampliamente habilitado que publique esas capacidades.
Leyenda: ✅ Hay al menos un modelo público actualmente habilitado en esa familia de proveedores con esa capacidad | ❌ No hay modelos públicos actualmente habilitados con esa capacidad
Usa kling_elements con kling-3.0-video cuando necesites referencias de elementos. Proporciona una solicitud condicionada por imagen (image_url, image_urls, start_image o end_image) y referencia cada elemento en el prompt con @name. No combines kling_elements con output_audio=true; omite output_audio o ponlo en false para solicitudes con referencias de elementos.
Para seedance-2.0 y seedance-2.0-fast, TokenLab admite actualmente hasta 9 imágenes de referencia, además de hasta 3 videos de referencia y 3 audios de referencia. duration solo controla la duración del resultado generado; no define un límite independiente para la duración del video de referencia de entrada.
response = requests.post(f"{BASE}/videos/generations", headers=headers, json={ "model": "veo3.1", "prompt": "Keep the same subject identity and palette while adding subtle motion.", "operation": "reference-to-video", "reference_images": [ "https://example.com/ref-a.jpg", "https://example.com/ref-b.jpg" ], "duration": 8, "resolution": "720p", "aspect_ratio": "9:16" })
URL data: útil para pruebas locales e integraciones pequeñas
reference_images
string[]
Campo público canónico para condicionamiento con referencias
reference_image_type
string
Selector opcional asset / style
video_url
string
Obligatorio para los modelos públicos actuales de video-to-video y motion-control
audio_url
string
Para flujos específicos de audio a video
output_audio
boolean
La familia Veo 3 trata la omisión como true. kling-3.0-video acepta este selector para el control sound upstream y queda silencioso por defecto si se omite.
La facturación depende del modelo. Algunos modelos públicos de video se comportan en la práctica como modelos cobrados por solicitud, mientras que otros se asemejan más a un cobro por segundo. Para la superficie pública de precios actual, consulta la página de modelos o la Pricing API.