Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.tokenlab.sh/llms.txt

Use this file to discover all available pages before exploring further.

Anfragekörper

model
string
erforderlich
ID des zu verwendenden Modells. Siehe Models für verfügbare Optionen.
messages
array
erforderlich
Eine Liste von Nachrichten, die die Konversation bilden.Jedes Nachrichtenobjekt enthält:
  • role (string): system, user oder assistant
  • content (string | array): Der Nachrichteninhalt
Wenn content ein Array ist, unterstützt TokenLab strukturierte multimodale Blöcke für kompatible Modelle:
  • text: { "type": "text", "text": "..." }
  • Bild: { "type": "image_url", "image_url": { "url": "https://..." } }
  • audio: { "type": "audio_url", "audio_url": { "url": "https://..." } }
  • video: { "type": "video_url", "video_url": { "url": "https://..." } }
Für multimodalen Produktionstraffic bevorzugen Sie öffentliche https-URLs. TokenLab übersetzt diese Medienblöcke in die anbieter-spezifische Anforderungsform, die vom gerouteten physischen Modell benötigt wird.
temperature
number
Standard:"1"
Sampling-Temperatur zwischen 0 und 2. Höhere Werte machen die Ausgabe zufälliger.
max_tokens
integer
Maximale Anzahl an zu generierenden Tokens.
stream
boolean
Standard:"false"
Wenn true, werden partielle Nachrichtendeltas als SSE-Ereignisse gesendet.
stream_options
object
Optionen fürs Streaming. Setzen Sie include_usage: true, um Token-Nutzungsdaten in Stream-Chunks zu erhalten.
top_p
number
Standard:"1"
Nucleus-Sampling-Parameter. Wir empfehlen, entweder diesen oder die Temperatur zu verändern, aber nicht beide.
frequency_penalty
number
Standard:"0"
Zahl zwischen -2.0 und 2.0. Positive Werte bestrafen wiederholte Tokens.
presence_penalty
number
Standard:"0"
Zahl zwischen -2.0 und 2.0. Positive Werte bestrafen Tokens, die bereits im Text vorhanden sind.
stop
string | array
Bis zu 4 Sequenzen, bei denen die API das Generieren von Tokens stoppt.
tools
array
Eine Liste von Tools, die das Modell aufrufen kann (Funktionsaufrufe).
tool_choice
string | object
Steuert, wie das Modell Tools verwendet. Optionen: auto, none, required, oder ein spezifisches Tool-Objekt.
parallel_tool_calls
boolean
Standard:"true"
Ob parallele Funktionsaufrufe aktiviert werden sollen. Auf false setzen, um Funktionen nacheinander aufzurufen.
max_completion_tokens
integer
Maximale Tokens für die Vervollständigung. Alternative zu max_tokens, nützlich für neuere modellfamilien mit Reasoning-Unterstützung.
reasoning_effort
string
Reasoning-Aufwand für reasoning-fähige Modelle. Optionen: low, medium, high.
seed
integer
Zufallsseed für deterministisches Sampling.
n
integer
Standard:"1"
Anzahl der zu erzeugenden Vervollständigungen (1-128).
logprobs
boolean
Ob Log-Wahrscheinlichkeiten zurückgegeben werden sollen.
top_logprobs
integer
Anzahl der obersten Log-Wahrscheinlichkeiten, die zurückgegeben werden sollen (0-20). Erfordert logprobs: true.
top_k
integer
Top-K Sampling-Parameter (für Anthropic/Gemini-Modelle).
response_format
object
Spezifikation des Antwortformats. Verwenden Sie {"type": "json_object"} für den JSON-Modus. Behandeln Sie {"type": "json_schema", "json_schema": {...}} als eine Best-Effort-Option, die vom ausgewählten Modell und dem gerouteten Verhalten abhängt.
logit_bias
object
Anpassung der Wahrscheinlichkeit, dass bestimmte Tokens erscheinen. Mappen Sie Token-IDs (als Strings) auf Bias-Werte von -100 bis 100.
user
string
Ein eindeutiger Bezeichner, der Ihren Endbenutzer für Missbrauchsüberwachung repräsentiert.
cache_control
object
TokenLab Cache-Control-Optionen.
  • type (string): Cache-Strategie - default, no_cache, no_store, response_only, semantic_only
  • max_age (integer): Cache-TTL in Sekunden (max. 86400)

Antwort

id
string
Eindeutiger Bezeichner für die Vervollständigung.
object
string
Immer chat.completion.
created
integer
Unix-Zeitstempel, wann die Vervollständigung erstellt wurde.
model
string
Das für die Vervollständigung verwendete Modell.
choices
array
Liste der Vervollständigungsoptionen.Jede Auswahl enthält:
  • index (integer): Index der Auswahl
  • message (object): Die generierte Nachricht
  • finish_reason (string): Weshalb das Modell gestoppt hat (stop, length, tool_calls)
usage
object
Statistiken zur Token-Nutzung.
  • prompt_tokens (integer): Tokens im Prompt
  • completion_tokens (integer): Tokens in der Vervollständigung
  • total_tokens (integer): Insgesamt verwendete Tokens
curl -X POST "https://api.tokenlab.sh/v1/chat/completions" \
  -H "Authorization: Bearer sk-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Hello!"}
    ],
    "temperature": 0.7,
    "max_tokens": 1000
  }'

Multimodales Beispiel

{
  "model": "gemini-2.5-pro",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Describe this video briefly." },
        { "type": "video_url", "video_url": { "url": "https://example.com/demo.mp4" } }
      ]
    }
  ],
  "max_tokens": 64
}
{
  "id": "chatcmpl-abc123",
  "object": "chat.completion",
  "created": 1706000000,
  "model": "gpt-4o",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "Hello! How can I help you today?"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 20,
    "completion_tokens": 9,
    "total_tokens": 29
  }
}