Boas Práticas - TokenLab

Seleção de Modelo

Escolher o modelo certo pode impactar significativamente o custo e a qualidade.

Recomendações Baseadas em Tarefas

Tarefa	Modelos Recomendados	Justificativa
Perguntas e respostas simples	`gpt-5-mini`, `gemini-3.5-flash`	Rápido, barato, suficiente
Raciocínio complexo	`gpt-5.4`, `claude-opus-4-6`, `deepseek-r1`	Melhor lógica e planejamento
Programação	`claude-sonnet-4-6`, `gpt-4o`, `deepseek-v3-2`	Otimizado para código
Escrita criativa	`claude-sonnet-4-6`, `gpt-4o`	Melhor qualidade de prosa
Visão/Imagens	`gpt-4o`, `claude-sonnet-4-6`, `gemini-3.5-flash`	Suporte nativo a visão
Contexto longo	`gemini-2.5-pro`, `claude-sonnet-4-6`	Janelas de 1M+ token
Sensível a custo	`gpt-5-mini`, `gemini-3.5-flash`, `deepseek-v3-2`	Melhor custo-benefício

Faixas de Custo

$$$$ Premium: gpt-5.4, claude-opus-4-6
$$$  Standard: claude-sonnet-4-6, gpt-4o
$$   Budget:   gpt-5-mini, gemini-3.5-flash
$    Economy:  deepseek-v3-2, deepseek-r1

Otimização de Custos

1. Use Modelos Menores Primeiro

def smart_query(question: str, complexity: str = "auto"):
    """Use cheaper models for simple tasks."""

    if complexity == "simple":
        model = "gpt-5-mini"
    elif complexity == "complex":
        model = "gpt-4o"
    else:
        # Start cheap, escalate if needed
        model = "gpt-5-mini"

    response = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": question}]
    )
    return response

2. Defina `max_tokens`

Sempre defina um limite razoável de max_tokens:

# ❌ Bad: No limit, could generate thousands of tokens
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Summarize this article"}]
)

# ✅ Good: Limit response length
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Summarize this article"}],
    max_tokens=500  # Reasonable limit for a summary
)

3. Otimize os Prompts

# ❌ Verbose prompt (more input tokens)
prompt = """
I would like you to please help me by analyzing the following text
and providing a comprehensive summary of the main points. Please be
thorough but also concise in your response. The text is as follows:
{text}
"""

# ✅ Concise prompt (fewer tokens)
prompt = "Summarize the key points:\n{text}"

4. Faça Batch de Requisições Semelhantes

# ❌ Many small requests
for question in questions:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": question}]
    )

# ✅ Fewer larger requests
combined_prompt = "\n".join([f"{i+1}. {q}" for i, q in enumerate(questions)])
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": f"Answer each question:\n{combined_prompt}"}]
)

Otimização de Performance

5. Use Streaming para UX

Streaming melhora a performance percebida:

stream = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Write a long essay"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

6. Escolha Modelos Rápidos para Uso Interativo

Caso de Uso	Recomendado	Latência
UI de chat	`gpt-5-mini`, `gemini-3.5-flash`	~200ms para o primeiro token
Completar com Tab	`claude-haiku-4-5`	~150ms para o primeiro token
Processamento em segundo plano	`gpt-4o`, `claude-sonnet-4-6`	~500ms para o primeiro token

7. Defina Timeouts

client = OpenAI(
    api_key="sk-your-key",
    base_url="https://api.tokenlab.sh/v1",
    timeout=60.0  # 60 second timeout
)

Confiabilidade

8. Implemente Retries

import time
from openai import RateLimitError, APIError

def chat_with_retry(messages, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.chat.completions.create(
                model="gpt-4o",
                messages=messages
            )
        except RateLimitError:
            wait = 2 ** attempt
            print(f"Rate limited, waiting {wait}s...")
            time.sleep(wait)
        except APIError as e:
            if attempt == max_retries - 1:
                raise
            time.sleep(1)
    raise Exception("Max retries exceeded")

9. Trate Erros de Forma Elegante

from openai import APIError, AuthenticationError, RateLimitError

try:
    response = client.chat.completions.create(...)
except AuthenticationError:
    # Check API key
    notify_admin("Invalid API key")
except RateLimitError:
    # Queue for later or use backup
    add_to_queue(request)
except APIError as e:
    if e.status_code == 402:
        notify_admin("Balance low")
    elif e.status_code >= 500:
        # Server error, retry later
        schedule_retry(request)

10. Use Modelos de Fallback

FALLBACK_CHAIN = ["gpt-4o", "claude-sonnet-4-6", "gemini-3.5-flash"]

def chat_with_fallback(messages):
    for model in FALLBACK_CHAIN:
        try:
            return client.chat.completions.create(
                model=model,
                messages=messages
            )
        except APIError:
            continue
    raise Exception("All models failed")

Segurança

11. Proteja as API Keys

# ❌ Never hardcode keys
client = OpenAI(api_key="sk-abc123...")

# ✅ Use environment variables
import os
client = OpenAI(api_key=os.environ["TOKENLAB_API_KEY"])

12. Valide a Entrada do Usuário

def validate_message(content: str) -> bool:
    """Validate user input before sending to API."""
    if len(content) > 100000:
        raise ValueError("Message too long")
    # Add other validation as needed
    return True

13. Defina Limites para API Keys

Crie API keys separadas com limites de gastos para:

Desenvolvimento/testes
Produção
Diferentes aplicações

Monitoramento

14. Acompanhe o Uso

Verifique seu dashboard regularmente para:

Uso de token por modelo
Detalhamento de custos
Taxas de acerto do cache
Taxas de erro

15. Registre Métricas Importantes

import logging

response = client.chat.completions.create(...)

logging.info({
    "model": response.model,
    "prompt_tokens": response.usage.prompt_tokens,
    "completion_tokens": response.usage.completion_tokens,
    "total_tokens": response.usage.total_tokens,
})

16. Configure Alertas

Configure alertas de saldo baixo no seu dashboard para evitar interrupção do serviço.

Checklist

Otimização de custos

Usando o modelo apropriado para cada tarefa
Definindo limites de max_tokens
Prompts concisos
Cache habilitado onde apropriado
Batch de requisições semelhantes

Performance

Streaming para UX interativa
Modelos rápidos para uso em tempo real
Timeouts configurados

Confiabilidade

Lógica de retry implementada
Tratamento de erros implementado
Modelos de fallback configurados

Segurança

API keys em variáveis de ambiente
Validação de entrada
Chaves separadas para dev/prod
Limites de gastos definidos

Guias de Migração Geração de Imagem

​Seleção de Modelo

​Recomendações Baseadas em Tarefas

​Faixas de Custo

​Otimização de Custos

​1. Use Modelos Menores Primeiro

​2. Defina max_tokens

​3. Otimize os Prompts

​4. Faça Batch de Requisições Semelhantes

​Otimização de Performance

​5. Use Streaming para UX

​6. Escolha Modelos Rápidos para Uso Interativo

​7. Defina Timeouts

​Confiabilidade

​8. Implemente Retries

​9. Trate Erros de Forma Elegante

​10. Use Modelos de Fallback

​Segurança

​11. Proteja as API Keys

​12. Valide a Entrada do Usuário

​13. Defina Limites para API Keys

​Monitoramento

​14. Acompanhe o Uso

​15. Registre Métricas Importantes

​16. Configure Alertas

​Checklist

Seleção de Modelo

Recomendações Baseadas em Tarefas

Faixas de Custo

Otimização de Custos

1. Use Modelos Menores Primeiro

2. Defina `max_tokens`

3. Otimize os Prompts

4. Faça Batch de Requisições Semelhantes

Otimização de Performance

5. Use Streaming para UX

6. Escolha Modelos Rápidos para Uso Interativo

7. Defina Timeouts

Confiabilidade

8. Implemente Retries

9. Trate Erros de Forma Elegante

10. Use Modelos de Fallback

Segurança

11. Proteja as API Keys

12. Valide a Entrada do Usuário

13. Defina Limites para API Keys

Monitoramento

14. Acompanhe o Uso

15. Registre Métricas Importantes

16. Configure Alertas

Checklist