Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.tokenlab.sh/llms.txt

Use this file to discover all available pages before exploring further.

Überblick

TokenLab bietet Video-Generierung über eine einheitliche API an. Die Generierung ist asynchron: Sie senden eine Anfrage, erhalten task_id und poll_url und pollen anschließend auf das Endergebnis.

Verfügbarkeit und Polling

Den aktuellen Bestand öffentlicher Videomodelle finden Sie über die Models API oder auf der Modellseite. Wenn eine Create-Response poll_url zurückgibt, verwenden Sie genau diese URL. Wenn sie auf /v1/tasks/{id} zeigt, behandeln Sie sie als kanonischen festen Status-Endpunkt.

Modell- und Medienverhalten

Das Audioverhalten ist modellabhängig. In TokenLab wird die Veo-3-Familie bei weggelassenem output_audio standardmäßig als audio-on behandelt. Andere öffentliche Modelle sind standardmäßig stumm oder veröffentlichen keinen stabilen Audio-Schalter. In Produktion sollten Sie für Bild-, Video- und Audioeingaben öffentlich erreichbare https-URLs bevorzugen. Kompatible Modelle akzeptieren weiterhin data:-URLs, aber URLs sind für Retry, Observability und Debugging in der Regel robuster.

Asynchroner Workflow

Aktuelle öffentliche Operationen

Der öffentliche Videovertrag von TokenLab konzentriert sich derzeit auf diese Operationen:
  • text-to-video
  • image-to-video
  • reference-to-video
  • start-end-to-video
  • video-to-video
  • motion-control
Der Vertrag akzeptiert außerdem audio-to-video und video-extension für modellspezifische Flows, aber in der aktuell allgemein aktivierten öffentlichen Modellliste dieses Docs-Builds gibt es kein breit aktiviertes Modell, das diese Fähigkeiten öffentlich anbietet.

Fähigkeitsmatrix

Legende: ✅ In dieser Provider-Familie gibt es mindestens ein aktuell aktives öffentliches Modell mit dieser Fähigkeit | ❌ In den aktuell aktiven öffentlichen Modellen nicht öffentlich verfügbar
SerieT2VI2VReferenzStart-EndeV2VBewegung
OpenAI
Kuaishou
Google
ByteDance
MiniMax
Alibaba
Shengshu
xAI
Other

Begriffserläuterung

  • T2V (Text-to-Video): Video aus einem Text-Prompt erzeugen
  • I2V (Image-to-Video): Video aus einem Startbild erzeugen; aus Kompatibilitätsgründen wird image_url empfohlen
  • Reference: Konditionierung über ein oder mehrere Referenzbilder via reference_images
  • Start-End: Ersten und letzten Frame mit start_image und end_image steuern
  • V2V (Video-to-Video): Ein bestehendes Video als Haupteingang verwenden
  • Motion: Motivbild und Bewegungsreferenzvideo gemeinsam verwenden

Aktueller öffentlicher Modellbestand

OpenAI

ModellÖffentliche Operationen
sora-2Text-zu-Video, Bild-zu-Video
sora-2-proText-zu-Video, Bild-zu-Video
sora-2-pro-storyboardBild-zu-Video

Kuaishou

ModellÖffentliche Operationen
kling-3.0-motion-controlBewegungssteuerung
kling-3.0-videoText-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video, Elementreferenzen
kling-v2.1-masterText-zu-Video, Bild-zu-Video
kling-v2.1-proBild-zu-Video, Start-Endbild-zu-Video
kling-v2.1-standardBild-zu-Video
kling-v2.5-turbo-proText-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video
kling-v2.5-turbo-stdText-zu-Video, Bild-zu-Video
kling-v2.6-proText-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video
kling-v2.6-stdText-zu-Video, Bild-zu-Video
kling-v3.0-proText-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video
kling-v3.0-stdText-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video
kling-video-o1-proText-zu-Video, Bild-zu-Video, Referenzbild-zu-Video, Start-Endbild-zu-Video, Video-zu-Video
kling-video-o1-stdText-zu-Video, Bild-zu-Video, Referenzbild-zu-Video, Start-Endbild-zu-Video, Video-zu-Video

Google

ModellÖffentliche Operationen
veo3Text-zu-Video, Bild-zu-Video
veo3-fastText-zu-Video, Bild-zu-Video
veo3-proText-zu-Video, Bild-zu-Video
veo3.1Text-zu-Video, Bild-zu-Video, Referenzbild-zu-Video, Start-Endbild-zu-Video
veo3.1-fastText-zu-Video, Bild-zu-Video, Referenzbild-zu-Video, Start-Endbild-zu-Video
veo3.1-proText-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video

ByteDance

ModellÖffentliche Operationen
seedance-1.5-proText-zu-Video, Bild-zu-Video

MiniMax

ModellÖffentliche Operationen
hailuo-2.3-fastBild-zu-Video
hailuo-2.3-proText-zu-Video, Bild-zu-Video
hailuo-2.3-standardText-zu-Video, Bild-zu-Video

Alibaba

ModellÖffentliche Operationen
wan-2.2-plusText-zu-Video, Bild-zu-Video
wan-2.5Text-zu-Video, Bild-zu-Video
wan-2.6Text-zu-Video, Bild-zu-Video, Referenzbild-zu-Video

Shengshu

ModellÖffentliche Operationen
viduq2Text-zu-Video, Referenzbild-zu-Video
viduq2-proBild-zu-Video, Referenzbild-zu-Video, Start-Endbild-zu-Video
viduq2-pro-fastBild-zu-Video, Start-Endbild-zu-Video
viduq2-turboBild-zu-Video, Start-Endbild-zu-Video
viduq3-proText-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video
viduq3-turboText-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video

xAI

ModellÖffentliche Operationen
grok-imagine-videoText-zu-Video, Bild-zu-Video
grok-imagine-image-to-videoBild-zu-Video
grok-imagine-text-to-videoText-zu-Video
grok-imagine-upscaleVideo-zu-Video

Sonstiges

ModellÖffentliche Operationen
topaz-video-upscaleVideo-zu-Video

Verwendungsbeispiele

Text-zu-Video

response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "sora-2",
        "prompt": "A calm cinematic shot of a cat walking through a sunlit garden.",
        "operation": "text-to-video",
        "duration": 4,
        "aspect_ratio": "16:9"
    }
)

Bild-zu-Video

response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "hailuo-2.3-standard",
        "prompt": "The scene begins from the provided image and adds gentle natural motion.",
        "operation": "image-to-video",
        "image_url": "https://example.com/portrait.jpg",
        "duration": 6,
        "aspect_ratio": "16:9"
    }
)

Kling 3.0 Elements

Verwenden Sie kling_elements mit kling-3.0-video, wenn Sie Elementreferenzen benötigen. Senden Sie eine bildkonditionierte Anfrage (image_url, image_urls, start_image oder end_image) und referenzieren Sie jedes Element im Prompt mit @name. Kombinieren Sie kling_elements nicht mit output_audio=true; lassen Sie output_audio weg oder setzen Sie es für Elementreferenzen auf false.
response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "kling-3.0-video",
        "prompt": "Place @hero_bag on a studio turntable with soft product lighting.",
        "operation": "image-to-video",
        "image_url": "https://example.com/studio-start.png",
        "duration": 5,
        "resolution": "720p",
        "kling_elements": [
            {
                "name": "hero_bag",
                "description": "black leather handbag",
                "element_input_urls": [
                    "https://example.com/bag-front.png",
                    "https://example.com/bag-side.png"
                ]
            }
        ]
    }
)

Referenzbild-zu-Video

Für seedance-2.0 und seedance-2.0-fast unterstützt TokenLab derzeit bis zu 9 Referenzbilder sowie zusätzlich bis zu 3 Referenzvideos und 3 Referenzaudios. duration steuert nur die Länge des generierten Outputs und definiert kein separates Dauerlimit für Referenzvideo-Eingaben.
response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "veo3.1",
        "prompt": "Keep the same subject identity and palette while adding subtle motion.",
        "operation": "reference-to-video",
        "reference_images": [
            "https://example.com/ref-a.jpg",
            "https://example.com/ref-b.jpg"
        ],
        "duration": 8,
        "resolution": "720p",
        "aspect_ratio": "9:16"
    }
)

Start- und Endframe-Steuerung

response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "viduq2-pro",
        "prompt": "Smooth transition from day to night.",
        "operation": "start-end-to-video",
        "start_image": "https://example.com/city-day.jpg",
        "end_image": "https://example.com/city-night.jpg",
        "duration": 5,
        "resolution": "720p",
        "aspect_ratio": "16:9"
    }
)

Video-zu-Video

response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "topaz-video-upscale",
        "operation": "video-to-video",
        "video_url": "https://example.com/source.mp4",
        "prompt": "Upscale this clip while preserving the original motion."
    }
)

Bewegungssteuerung

response = requests.post(f"{BASE}/videos/generations",
    headers=headers,
    json={
        "model": "kling-3.0-motion-control",
        "operation": "motion-control",
        "prompt": "Keep the subject stable while following the motion reference.",
        "image_url": "https://example.com/subject.png",
        "video_url": "https://example.com/motion.mp4",
        "resolution": "720p"
    }
)

Hinweise zu Parametern

ParameterTypHinweis
operationstringIn Produktion explizit angeben
image_urlstringRobusteste Form für Bildeingaben
imagestringdata:-URL für lokale Tests und kleine Integrationen
reference_imagesstring[]Kanonisches öffentliches Feld für Referenzbild-Konditionierung
reference_image_typestringOptionaler asset / style-Schalter
video_urlstringFür aktuelle öffentliche video-to-video- und motion-control-Modelle erforderlich
audio_urlstringFür modellspezifische Audio-zu-Video-Flows
output_audiobooleanVeo-3-Familie behandelt Auslassung als true. kling-3.0-video akzeptiert diesen Selector für die Upstream-sound-Steuerung und bleibt bei Auslassung stumm.

Hinweise zur Modellauswahl

Höchste Qualität

Wenn Qualität wichtiger ist als Geschwindigkeit, sind veo3.1-pro, kling-video-o1-pro und viduq3-pro starke Kandidaten.

Schnelle Iteration

Für schnelle Schleifen eignen sich veo3.1-fast, hailuo-2.3-fast und viduq3-turbo.

Referenzbild-Konditionierung

Für dedizierte Referenzbild-Steuerung sind veo3.1, veo3.1-fast, wan-2.6 sowie kling-video-o1-pro / std gute Startpunkte.

Video-zu-Video

Die allgemein aktivierten öffentlichen video-to-video-Pfade sind derzeit vor allem topaz-video-upscale, grok-imagine-upscale und kling-video-o1-pro / std.

Abrechnung

Die Abrechnung ist modellabhängig. Einige öffentliche Videomodelle verhalten sich effektiv wie requestbasierte Modelle, andere eher wie sekundenbasierte Modelle. Verlassen Sie sich für die aktuelle öffentliche Preisfläche auf die Modellseite oder die Pricing API.