Documentation Index
Fetch the complete documentation index at: https://docs.tokenlab.sh/llms.txt
Use this file to discover all available pages before exploring further.
Visão Geral
Além do cache semântico da plataforma da TokenLab, muitos provedores de IA oferecem seu próprio recurso de cache de prompt. Este é um mecanismo de cache separado que opera no nível do provedor (Anthropic, OpenAI, DeepSeek, etc.).Dois Tipos de Cache
Estes são mutualmente exclusivos: se houver um hit no cache da plataforma, nenhuma chamada upstream é feita, portanto, o cache do provedor não se aplica.
| Tipo | Onde | Como Funciona | Custo |
|---|---|---|---|
| Cache da Plataforma | TokenLab | Correspondência por similaridade semântica | 10% do preço normal |
| Cache do Provedor | Upstream (Anthropic/OpenAI/etc) | Correspondência exata de prefixo | Taxas de token com desconto |
Como Funciona o Cache de Prompt do Provedor
O cache de prompt do provedor armazena a representação processada do prefixo do seu prompt nos servidores do provedor. Quando você envia uma solicitação com o mesmo prefixo, o provedor pode pular o reprocessamento desses tokens.Principais Características
- Baseado em prefixo: Apenas o início do seu prompt pode ser armazenado em cache
- Correspondência exata: Requer tokens idênticos (não similaridade semântica)
- Tempo limitado: As entradas de cache expiram (geralmente entre 5 a 60 minutos)
- Automático: Nenhuma configuração especial é necessária
Provedores Suportados
| Provedor | Desconto de Leitura de Cache | Custo de Escrita de Cache | Tokens Mínimos |
|---|---|---|---|
| Anthropic | 90% de desconto | 25% de prêmio | 1024 |
| OpenAI | 50% de desconto | Igual à entrada | 1024 |
| DeepSeek | 90% de desconto | Igual à entrada | 64 |
| 75% de desconto | 25% de acréscimo | 32768 |
Os descontos são aplicados automaticamente. A TokenLab repassa o preço de cache do provedor para você.
Identificando o Uso do Cache
Nos Logs de Uso
Seus logs de uso mostram o detalhamento detalhado dos tokens de cache:| Campo | Descrição |
|---|---|
cacheReadTokens | Tokens servidos pelo cache do provedor (com desconto) |
cacheWriteTokens | Tokens gravados no cache (para solicitações futuras) |
nonCachedPromptTokens | Tokens processados sem cache |
Nas Transações
As transações exibem um rótulo de Provider Cache quando o cache upstream foi utilizado:- Cache (azul céu): Hit de cache semântico da plataforma - desconto de 90%
- Provider Cache (azul-petróleo): Hit de cache de prompt upstream - taxas com desconto
Exemplo de Cálculo de Custo
Para uma solicitação com 10.000 tokens de entrada para o Claude (Anthropic): Sem cache:Melhores Práticas
Use prompts de sistema consistentes
Use prompts de sistema consistentes
Coloque seu prompt de sistema e contexto estático no início de suas mensagens. Isso maximiza o potencial de hit do cache.
Agrupe solicitações semelhantes
Agrupe solicitações semelhantes
Envie solicitações com o mesmo prefixo em intervalos próximos para se beneficiar do cache antes que ele expire.
Atenda aos requisitos mínimos de tokens
Atenda aos requisitos mínimos de tokens
Certifique-se de que seu prefixo passível de cache atenda ao mínimo do provedor (ex: 1024 tokens para Anthropic/OpenAI).
Monitore as métricas de cache
Monitore as métricas de cache
Verifique as estatísticas de uso no seu dashboard para ver as taxas de hit de cache e economia.
Cache da Plataforma vs Cache do Provedor
| Aspecto | Cache da Plataforma | Cache do Provedor |
|---|---|---|
| Correspondência | Similaridade semântica | Correspondência exata de prefixo |
| Custo | 10% do preço normal | Taxas com desconto |
| Latência | Instantânea (~1ms) | Reduzida (pula o processamento) |
| Controle | Configurações do dashboard | Automático |
| Escopo | Entre usuários (opcional) | Por chave de API |
Quando Cada Um se Aplica
Verificando o Status do Cache
Headers de Resposta
API de Uso
Consulte seus logs de uso para ver o detalhamento do cache:FAQ
Posso desativar o cache do provedor?
Posso desativar o cache do provedor?
O cache do provedor é automático e não pode ser desativado. No entanto, ele só traz benefícios (custos menores), portanto não há motivo para desativá-lo.
Por que minha solicitação não deu hit no cache do provedor?
Por que minha solicitação não deu hit no cache do provedor?
Motivos comuns:
- O prefixo mudou (mesmo que por um único token)
- O cache expirou (geralmente entre 5 a 60 minutos)
- Prefixo muito curto (abaixo do mínimo de tokens)
- Chave de API diferente utilizada
O BYOK suporta cache do provedor?
O BYOK suporta cache do provedor?
Sim! Ao usar suas próprias chaves de API (BYOK), o cache do provedor funciona da mesma maneira. O cache está vinculado à sua chave de API upstream.
Como maximizo a economia com cache?
Como maximizo a economia com cache?
- Use o cache semântico da plataforma para consultas semelhantes repetidas
- Estruture os prompts com conteúdo estático primeiro
- Mantenha os prompts de sistema consistentes entre as solicitações
- Envie solicitações relacionadas em sucessão rápida