Token Nedir? LLM Maliyetlerini Nasıl Hesaplarız?

müfettiş

Moderatör
Katılım
20 Ocak 2024
Mesajlar
325
Tepkime puanı
1
Puanları
18
Yapay zeka dünyasında, özellikle ChatGPT, Claude veya Llama gibi Büyük Dil Modelleri (LLM) ile çalışırken en sık duyacağınız terimlerin başında "Token" gelir. Çoğu kullanıcı "kelime sayısı" üzerinden düşünmeye alışık olsa da, yapay zeka modelleri metinleri kelimelerle değil, token dediğimiz atomik birimlerle işler. Bu birimler hem modelin "zekasını" hem de cebinizden çıkacak "maliyeti" doğrudan belirleyen unsurdur.


1. Token Nedir? Kelimeden Farkı Ne?​

En basit tanımıyla token, bir metnin yapay zeka tarafından işlenebilecek en küçük anlamlı parçasıdır. Bir token; bir kelime, bir kelime kökü, bir ek veya sadece bir noktalama işareti olabilir.

Tokenleşme (Tokenization) Nasıl Çalışır?​

Yapay zeka modelleri doğrudan harfleri veya kelimeleri okuyamaz. Bunun yerine metni sayılara dönüştürürler. Bu sürece Tokenization denir.

  • Kısa Kelimeler: Genellikle tek bir token sayılır (Örn: "elma" → 1 token).
  • Uzun veya Nadir Kelimeler: Birden fazla tokene bölünür (Örn: "elektrik çarpması" → 2 veya daha fazla token).
  • Ekler: Türkçe gibi sondan eklemeli dillerde ekler genellikle ayrı tokenler olarak algılanır.
Altın Kural: İngilizce metinlerde ortalama olarak 1000 token, yaklaşık 750 kelimeye tekabül eder. Ancak Türkçe metinlerde, dilin yapısı gereği 1000 token yaklaşık 450-550 kelimeye kadar düşebilir. Bu da Türkçe içerik üretmenin veya analiz etmenin, İngilizceye göre biraz daha "pahalı" olduğu anlamına gelir.


2. Neden Kelime Değil de Token Kullanılıyor?​

Modellerin token kullanmasının temel nedeni verimliliktir. Eğer model dünyadaki her kelimeyi (milyonlarca kelime) ayrı bir birim olarak ezberlemeye çalışsaydı, bu devasa bir bellek yükü oluştururdu. Bunun yerine, "sub-word" (kelime altı) birimler kullanarak, sınırlı sayıda tokenle (genellikle 50.000 - 100.000 arası benzersiz token) dünyadaki tüm dilleri ve yeni türetilen kelimeleri ifade edebilirler.


3. LLM Maliyetlerini Belirleyen Üç Ana Bileşen​

Yapay zeka sağlayıcıları (OpenAI, Anthropic, Google Cloud vb.) genellikle maliyetleri 1 milyon (1M) token başına fiyatlandırır. Maliyet hesabında üç farklı kalem vardır:

A. Input (Girdi) Tokenleri​

Sizin modele gönderdiğiniz metindir. Bu sadece sorduğunuz soruyu değil, sisteme verdiğiniz talimatları (System Prompt) ve geçmiş konuşma geçmişini (Context) de kapsar.

B. Output (Çıktı) Tokenleri​

Modelin size verdiği yanıttır. Genellikle çıktı tokenleri, girdi tokenlerinden 3-4 kat daha pahalıdır çünkü üretmek için daha fazla hesaplama gücü (compute) gerektirir.

C. Context Window (Bağlam Penceresi)​

Modelin bir seferde "hatırlayabildiği" toplam token sınırıdır. Örneğin GPT-4o'nun 128k bağlam penceresi vardır. Bu sınıra yaklaştıkça girdi maliyetleriniz katlanarak artar.


4. Adım Adım LLM Maliyet Hesabı​

Bir proje geliştirdiğinizi düşünelim: 1000 sayfalık bir dokümanı özetletmek istiyorsunuz.

Veriler:

  • Doküman: 300.000 kelime (Yaklaşık 450.000 token).
  • Model: GPT-4o (Input:$5.00/1M, Output:$15.00/1M).
  • Özet Uzunluğu: Her 10 sayfa için 1 sayfa özet (Yaklaşık 30.000 token çıktı).
Hesaplama:

  1. Girdi Maliyeti: (450.000/1.000.000)×$5.00=$2.25
  2. Çıktı Maliyeti: (30.000/1.000.000)×$15.00=$0.45
  3. Toplam: $2.70 (Yaklaşık 90 TL)

5. Gizli Maliyet: Bağlam Birikmesi (Context Accumulation)​

Sohbet botu geliştirirken yapılan en büyük hata, her soruda tüm geçmişi tekrar göndermektir.

    1. Soru: 100 token → Ödenen: 100 token.
    1. Soru: Önceki 100 + Yeni 100 → Ödenen: 200 token.
    1. Soru: Önceki 200 + Yeni 100 → Ödenen: 300 token.
Bu birikme, uzun sohbetlerde maliyeti logaritmik olarak artırır. Bunu engellemek için "Windowing" (Sadece son 5 mesajı hatırlat) veya "Summarization" (Eski konuşmaları özetleyerek hatırla) teknikleri kullanılır.


6. Maliyetleri Optimize Etme Stratejileri​

Bütçenizi korumak için şu yöntemleri izleyebilirsiniz:

  • Prompt Trim (Budama): Gereksiz kibarlık cümlelerini ("Lütfen bana yardımcı olabilir misin?") atın. Model için bunlar ek maliyettir.
  • Model Seçimi: Her iş için en pahalı modeli (GPT-4o) kullanmayın. Basit sınıflandırma veya özetleme işleri için GPT-4o-mini veya Llama 3 (8B) gibi ucuz modelleri tercih edin.
  • Kaching / Caching: Bazı sağlayıcılar (Anthropic gibi), sık kullanılan prompt bölümlerini (örneğin 50 sayfalık bir kullanım kılavuzu) "cache"leyerek %90'a varan indirimler sunar.
  • Sistem Mesajlarını Optimize Edin: Sabit sistem talimatlarınızı mümkün olduğunca kısa ve öz tutun.

7. Token Sayacı Araçları​

Girdiğiniz metnin kaç token tutacağını önceden görmek için şu araçları kullanabilirsiniz:

  • OpenAI Tokenizer: Web tabanlı ücretsiz görselleştirici.
  • Tiktoken (Python Kütüphanesi): Yazılımcılar için metni kod içinde saymaya yarar.
  • Anthropic Workbench: Karmaşık promptların maliyetini önizlemenizi sağlar.

8. Sonuç: Token Okuryazarlığı Neden Önemli?​

Yapay zeka çağında "Token Okuryazarlığı", bir şirketin bulut bilişim maliyetlerini (AWS/Azure) yönetmesi kadar kritiktir. Yanlış tasarlanmış bir prompt mimarisi, ay sonunda binlerce dolarlık sürpriz faturalara yol açabilir. Token yapısını anlamak, sadece tasarruf sağlamaz; aynı zamanda modelin limitlerini bilerek daha kaliteli ve tutarlı sistemler kurmanıza olanak tanır.

Unutmayın; her kelime bir maliyet, her token bir veri birimidir. Yapay zekayı bir "bedava sohbet" kutusu olarak değil, her milisaniyesi ücretlendirilen devasa bir süper bilgisayar olarak düşünmek sizi bir adım öne çıkaracaktır.
 
Geri
Üst