캐시 관리 - TokenLab

개요

TokenLab는 성능을 최적화하고 비용을 절감하기 위해 캐싱을 자동으로 관리합니다. 캐시 항목을 삭제하는 공개 엔드포인트는 없지만, 요청 수준의 제어를 통해 캐싱 동작을 완전히 제어할 수 있습니다. 이 페이지는 request-side cache 가이드입니다. 엄격한 API 참조 페이지는 다음을 확인하세요:

캐시 우회

캐시를 사용하지 않고 새로운 응답을 받으려면 요청에서 cache_control 파라미터를 사용하세요:

curl -X POST "https://api.tokenlab.sh/v1/chat/completions" \
  -H "Authorization: Bearer sk-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o",
    "messages": [{"role": "user", "content": "Hello!"}],
    "cache_control": {"type": "no_cache"}
  }'

캐시 제어 옵션

유형	효과
`no_cache`	캐시 조회와 저장을 건너뛰고 항상 새 응답을 가져옵니다
`no_store`	이 응답을 캐시에 저장하지 않습니다
`response_only`	정확한 일치(exact match) 캐시만 사용합니다 (시맨틱 건너뛰기)
`semantic_only`	시맨틱(semantic) 캐시만 사용합니다 (정확한 일치 건너뛰기)

캐시 피드백

잘못된 캐시 응답을 받은 경우 이를 보고할 수 있습니다: 내 조직에서 캐시 히트된 request/cache entry 식별자를 사용하세요. 임의의 ID는 거부됩니다.

curl -X POST "https://api.tokenlab.sh/v1/cache/feedback" \
  -H "Authorization: Bearer sk-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "cache_entry_id": "req_1234567890",
    "feedback_type": "wrong_answer",
    "description": "Response was outdated"
  }'

캐시 항목에 충분한 부정적 피드백이 쌓이면 자동으로 무효화됩니다.

사용 사례

새로운 응답 테스트

개발 중에는 cache_control: {"type": "no_cache"}를 사용하여 최신 API 응답을 받고 있는지 확인하세요.

시간에 민감한 쿼리

주가나 날씨와 같은 실시간 데이터의 경우, 항상 no_cache를 사용하여 현재 정보를 가져오세요.

디버깅

예기치 않은 응답을 디버깅할 때 no_cache를 사용하여 캐시된 결과의 가능성을 배제하세요.

캐싱에 대한 자세한 내용은 Caching Guide를 참조하세요.

캐시 피드백 통계 조회 채팅 완성 생성

Documentation Index

​개요

​캐시 우회

​캐시 제어 옵션

​캐시 피드백

​사용 사례

개요

캐시 우회

캐시 제어 옵션

캐시 피드백

사용 사례