Documentation Index
Fetch the complete documentation index at: https://docs.tokenlab.sh/llms.txt
Use this file to discover all available pages before exploring further.
Ringkasan
TokenLab menyediakan sistem caching cerdas yang dapat secara signifikan mengurangi biaya API dan latensi respons Anda. Caching kami melampaui pencocokan permintaan sederhana - sistem ini memahami makna semantik dari prompt Anda.Penghematan Biaya
Cache hit ditagih dengan biaya yang jauh lebih rendah dari biaya normal.
Respons Lebih Cepat
Respons yang di-cache dikembalikan secara instan, tidak memerlukan inferensi model.
Sadar Konteks
Pencocokan semantik menemukan permintaan serupa bahkan dengan kata-kata yang berbeda.
Kontrol Privasi
Kontrol penuh atas apa yang di-cache dan dibagikan.
Cara Kerja
TokenLab menggunakan sistem caching dua lapis:Lapisan 1: Response Cache (Pencocokan Persis)
Untuk permintaan deterministik (temperature=0), kami men-cache respons yang persis:
- Pencocokan: Model, pesan, dan parameter yang identik
- Kecepatan: Instan (mikrodetik)
- Terbaik untuk: Kueri identik yang berulang
Lapisan 2: Semantic Cache (Pencocokan Kemiripan)
Untuk semua permintaan, kami juga memeriksa kemiripan semantik menggunakan algoritma pencocokan dua tahap:- Tahap 1 (Hanya kueri): ≥95% kemiripan pada kueri pengguna
- Tahap 2 (Konteks penuh): ≥95% kemiripan termasuk konteks percakapan
- Terbaik untuk: Kueri gaya FAQ, pertanyaan umum
Header Cache
Header Permintaan
Kontrol perilaku caching per permintaan:| Header | Nilai | Efek |
|---|---|---|
Cache-Control: no-cache | - | Lewati cache, respons baru |
Cache-Control: no-store | - | Jangan cache respons ini |
Header Respons
Setiap respons menyertakan status cache:Memeriksa Status Cache
Penagihan Cache
Cache hit secara signifikan lebih murah daripada permintaan baru:| Tipe | Biaya |
|---|---|
| Cache HIT | Diskon 80% |
| Cache MISS | Harga penuh |
Kontrol Privasi
Tingkat API Key
Konfigurasikan perilaku caching untuk setiap API key di dasbor Anda:| Mode | Deskripsi |
|---|---|
| Bawaan | Cache diaktifkan, dapat dibagikan dengan permintaan serupa |
| No Share | Cache diaktifkan, tetapi respons bersifat pribadi untuk akun Anda |
| Disabled | Tidak ada caching sama sekali |
Tingkat Permintaan
Timpa per permintaan:Umpan Balik Cache
Jika Anda menerima respons cache yang salah, Anda dapat melaporkannya:wrong_answer- Secara faktual salahoutdated- Informasi sudah usangirrelevant- Tidak cocok dengan pertanyaanother- Masalah lainnya
Praktik Terbaik
Gunakan temperature=0 untuk kueri yang dapat di-cache
Gunakan temperature=0 untuk kueri yang dapat di-cache
Pengaturan deterministik memaksimalkan tingkat cache hit.
Standarisasi format prompt
Standarisasi format prompt
Pemformatan yang konsisten meningkatkan pencocokan semantik.
Gunakan no-cache untuk kueri yang sensitif terhadap waktu
Gunakan no-cache untuk kueri yang sensitif terhadap waktu
Peristiwa terkini, data real-time harus melewati cache.
Pantau tingkat cache hit
Pantau tingkat cache hit
Periksa dasbor Anda untuk statistik cache dan penghematan.
Kapan TIDAK menggunakan Cache
Nonaktifkan caching untuk:- Informasi real-time: Harga saham, cuaca, berita
- Konten yang dipersonalisasi: Rekomendasi khusus pengguna
- Tugas kreatif: Saat variasi diinginkan
- Data sensitif: Informasi rahasia