Passer au contenu principal

Documentation Index

Fetch the complete documentation index at: https://docs.tokenlab.sh/llms.txt

Use this file to discover all available pages before exploring further.

Vue d’ensemble

TokenLab propose la génération vidéo via une API unifiée. La génération est asynchrone : vous envoyez une requête, recevez task_id et poll_url, puis interrogez le task jusqu’au résultat final.

Disponibilité et polling

Pour connaître l’inventaire public le plus récent des modèles vidéo, utilisez la Models API ou la page des modèles. Si une réponse de création renvoie poll_url, appelez exactement cette URL. Lorsqu’elle pointe vers /v1/tasks/{id}, traitez-la comme l’endpoint fixe canonique de statut.

Comportement des modèles et des médias

Le comportement audio dépend du modèle. Dans TokenLab, la famille Veo 3 est traitée par défaut comme audio-on lorsque output_audio est omis. D’autres modèles publics sont silencieux par défaut ou n’exposent pas de commutateur audio stable. En production, privilégiez des URLs https publiques pour les images, vidéos et fichiers audio. Les modèles compatibles acceptent toujours les data: URLs, mais les URLs sont généralement plus robustes pour les retries, l’observabilité et le débogage.

Flux de travail asynchrone

Opérations publiques actuelles

Le contrat vidéo public de TokenLab se concentre actuellement sur les opérations suivantes :
  • text-to-video
  • image-to-video
  • reference-to-video
  • start-end-to-video
  • video-to-video
  • motion-control
Le contrat accepte aussi audio-to-video et video-extension pour des flux spécifiques, mais aucun modèle public largement activé ne publie actuellement ces capacités dans cette build de documentation.

Matrice des capacités

Légende : ✅ Au moins un modèle public actuellement actif dans cette famille expose la capacité | ❌ La capacité n’est pas publiquement exposée par les modèles actuellement actifs
SériesT2VI2VRéférenceDébut-FinV2VMouvement
OpenAI
Kuaishou
Google
ByteDance
MiniMax
Alibaba
Shengshu
xAI
Other

Définitions des capacités

  • T2V (Text-to-Video) : générer une vidéo à partir d’un prompt texte
  • I2V (Image-to-Video) : générer une vidéo à partir d’une image de départ ; image_url est recommandé pour la compatibilité
  • Reference : conditionner la génération avec une ou plusieurs images via reference_images
  • Start-End : contrôler la première et la dernière image via start_image et end_image
  • V2V (Video-to-Video) : utiliser une vidéo existante comme entrée principale
  • Motion : combiner une image de sujet et une vidéo de mouvement de référence

Inventaire public actuel des modèles

OpenAI

ModèleOpérations publiques
sora-2Texte vers vidéo, Image vers vidéo
sora-2-proTexte vers vidéo, Image vers vidéo
sora-2-pro-storyboardImage vers vidéo

Kuaishou

ModèleOpérations publiques
kling-3.0-motion-controlContrôle du mouvement
kling-3.0-videoTexte vers vidéo, Image vers vidéo, Début-fin vers vidéo, références d’éléments
kling-v2.1-masterTexte vers vidéo, Image vers vidéo
kling-v2.1-proImage vers vidéo, Début-fin vers vidéo
kling-v2.1-standardImage vers vidéo
kling-v2.5-turbo-proTexte vers vidéo, Image vers vidéo, Début-fin vers vidéo
kling-v2.5-turbo-stdTexte vers vidéo, Image vers vidéo
kling-v2.6-proTexte vers vidéo, Image vers vidéo, Début-fin vers vidéo
kling-v2.6-stdTexte vers vidéo, Image vers vidéo
kling-v3.0-proTexte vers vidéo, Image vers vidéo, Début-fin vers vidéo
kling-v3.0-stdTexte vers vidéo, Image vers vidéo, Début-fin vers vidéo
kling-video-o1-proTexte vers vidéo, Image vers vidéo, Référence vers vidéo, Début-fin vers vidéo, Vidéo vers vidéo
kling-video-o1-stdTexte vers vidéo, Image vers vidéo, Référence vers vidéo, Début-fin vers vidéo, Vidéo vers vidéo

Google

ModèleOpérations publiques
veo3Texte vers vidéo, Image vers vidéo
veo3-fastTexte vers vidéo, Image vers vidéo
veo3-proTexte vers vidéo, Image vers vidéo
veo3.1Texte vers vidéo, Image vers vidéo, Référence vers vidéo, Début-fin vers vidéo
veo3.1-fastTexte vers vidéo, Image vers vidéo, Référence vers vidéo, Début-fin vers vidéo
veo3.1-proTexte vers vidéo, Image vers vidéo, Début-fin vers vidéo

ByteDance

ModèleOpérations publiques
seedance-1.5-proTexte vers vidéo, Image vers vidéo

MiniMax

ModèleOpérations publiques
hailuo-2.3-fastImage vers vidéo
hailuo-2.3-proTexte vers vidéo, Image vers vidéo
hailuo-2.3-standardTexte vers vidéo, Image vers vidéo

Alibaba

ModèleOpérations publiques
wan-2.2-plusTexte vers vidéo, Image vers vidéo
wan-2.5Texte vers vidéo, Image vers vidéo
wan-2.6Texte vers vidéo, Image vers vidéo, Référence vers vidéo

Shengshu

ModèleOpérations publiques
viduq2Texte vers vidéo, Référence vers vidéo
viduq2-proImage vers vidéo, Référence vers vidéo, Début-fin vers vidéo
viduq2-pro-fastImage vers vidéo, Début-fin vers vidéo
viduq2-turboImage vers vidéo, Début-fin vers vidéo
viduq3-proTexte vers vidéo, Image vers vidéo, Début-fin vers vidéo
viduq3-turboTexte vers vidéo, Image vers vidéo, Début-fin vers vidéo

xAI

ModèleOpérations publiques
grok-imagine-videoTexte vers vidéo, image vers vidéo
grok-imagine-image-to-videoImage vers vidéo
grok-imagine-text-to-videoTexte vers vidéo
grok-imagine-upscaleVidéo vers vidéo

Autres

ModèleOpérations publiques
topaz-video-upscaleVidéo vers vidéo

Exemples d’utilisation

Texte vers vidéo

response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "sora-2",
        "prompt": "A calm cinematic shot of a cat walking through a sunlit garden.",
        "operation": "text-to-video",
        "duration": 4,
        "aspect_ratio": "16:9"
    }
)

Image vers vidéo

response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "hailuo-2.3-standard",
        "prompt": "The scene begins from the provided image and adds gentle natural motion.",
        "operation": "image-to-video",
        "image_url": "https://example.com/portrait.jpg",
        "duration": 6,
        "aspect_ratio": "16:9"
    }
)

Kling 3.0 Elements

Utilisez kling_elements avec kling-3.0-video lorsque vous avez besoin de références d’éléments. Fournissez une requête conditionnée par image (image_url, image_urls, start_image ou end_image) et référencez chaque élément dans le prompt avec @name. Ne combinez pas kling_elements avec output_audio=true ; omettez output_audio ou définissez-le sur false pour les requêtes avec références d’éléments.
response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "kling-3.0-video",
        "prompt": "Place @hero_bag on a studio turntable with soft product lighting.",
        "operation": "image-to-video",
        "image_url": "https://example.com/studio-start.png",
        "duration": 5,
        "resolution": "720p",
        "kling_elements": [
            {
                "name": "hero_bag",
                "description": "black leather handbag",
                "element_input_urls": [
                    "https://example.com/bag-front.png",
                    "https://example.com/bag-side.png"
                ]
            }
        ]
    }
)

Référence vers vidéo

Pour seedance-2.0 et seedance-2.0-fast, TokenLab prend actuellement en charge jusqu’à 9 images de référence, ainsi que jusqu’à 3 vidéos de référence et 3 audios de référence. duration contrôle uniquement la durée de sortie générée ; il ne définit pas de limite distincte pour la durée de la vidéo de référence en entrée.
response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "veo3.1",
        "prompt": "Keep the same subject identity and palette while adding subtle motion.",
        "operation": "reference-to-video",
        "reference_images": [
            "https://example.com/ref-a.jpg",
            "https://example.com/ref-b.jpg"
        ],
        "duration": 8,
        "resolution": "720p",
        "aspect_ratio": "9:16"
    }
)

Contrôle début / fin

response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "viduq2-pro",
        "prompt": "Smooth transition from day to night.",
        "operation": "start-end-to-video",
        "start_image": "https://example.com/city-day.jpg",
        "end_image": "https://example.com/city-night.jpg",
        "duration": 5,
        "resolution": "720p",
        "aspect_ratio": "16:9"
    }
)

Vidéo vers vidéo

response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "topaz-video-upscale",
        "operation": "video-to-video",
        "video_url": "https://example.com/source.mp4",
        "prompt": "Upscale this clip while preserving the original motion."
    }
)

Contrôle de mouvement

response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "kling-3.0-motion-control",
        "operation": "motion-control",
        "prompt": "Keep the subject stable while following the motion reference.",
        "image_url": "https://example.com/subject.png",
        "video_url": "https://example.com/motion.mp4",
        "resolution": "720p"
    }
)

Repères sur les paramètres

ParamètreTypeNote
operationstringMieux vaut le renseigner explicitement en production
image_urlstringForme d’entrée image la plus robuste
imagestringdata: URL pour tests locaux et petites intégrations
reference_imagesstring[]Champ public canonique pour le conditionnement par images de référence
reference_image_typestringSélecteur optionnel asset / style
video_urlstringRequis pour les modèles publics video-to-video et motion-control actuels
audio_urlstringPour les flux audio-vers-vidéo spécifiques à certains modèles
output_audiobooleanLa famille Veo 3 traite l’omission comme true. kling-3.0-video accepte ce sélecteur pour le contrôle upstream sound et reste silencieux par défaut si le champ est omis.

Conseils de sélection de modèle

Qualité maximale

Si la qualité prime sur la vitesse, veo3.1-pro, kling-video-o1-pro et viduq3-pro sont de bons candidats.

Itération rapide

Pour boucler vite, veo3.1-fast, hailuo-2.3-fast et viduq3-turbo sont de bons points de départ.

Conditionnement par références

Pour un contrôle fort par images de référence, privilégiez veo3.1, veo3.1-fast, wan-2.6 ainsi que kling-video-o1-pro / std.

Vidéo vers vidéo

Les chemins publics généralement actifs pour video-to-video sont surtout topaz-video-upscale, grok-imagine-upscale et kling-video-o1-pro / std.

Facturation

La facturation dépend du modèle. Certains modèles publics se comportent plutôt comme des modèles facturés à la requête, d’autres plutôt à la seconde. Pour le prix public le plus récent, référez-vous à la page des modèles ou à la Pricing API.