müfettiş
Moderatör
- Katılım
- 20 Ocak 2024
- Mesajlar
- 325
- Tepkime puanı
- 1
- Puanları
- 18
Yapay zeka modellerini (LLM) çalıştırmak denildiğinde akla genellikle binlerce dolarlık NVIDIA GPU'lar (Ekran Kartları) ve karmaşık sunucu sistemleri gelir. Ancak açık kaynak dünyasındaki gelişmeler, bu modelleri evimizdeki standart dizüstü bilgisayarlarda, hatta sadece işlemci (CPU) kullanarak çalıştırmayı mümkün kıldı. Bu devrimin öncüsü ise kullanım kolaylığıyla dikkat çeken Ollama projesidir.
GGUF formatı, CPU üzerinde çalışmak üzere optimize edilmiş bir dosya biçimidir. Bu format, modelin ağırlıklarını 16-bit'ten 4-bit'e (veya daha düşüğe) indirgeyerek hem gereken RAM miktarını azaltır hem de CPU'nun bu matematiksel işlemleri yapabilmesini sağlar. Ollama, bu karmaşık süreci arka planda otomatik olarak yönetir.
Bu komut, Meta'nın Llama 3 modelini otomatik olarak indirir ve sohbet arayüzünü başlatır. CPU üzerinde çalıştığınız için ilk yükleme ve ilk yanıt süresi (latency) GPU'ya göre biraz daha uzun olabilir, ancak modern CPU'larda saniyede 5-10 kelime (token) hızı yakalamak mümkündür.
Docker kullanarak tek komutla harika bir arayüz kurabilirsiniz:
Artık tarayıcınızdan localhost:3000 adresine girerek, yüklediğiniz tüm modelleri görsel bir arayüzde yönetebilir ve dokümanlarınızı (RAG) sisteme yükleyebilirsiniz.
Sonra şu komutla kendi modelinizi kaydedebilirsiniz:
1. Neden Yerel LLM (Local LLM) Kullanmalıyız?
Bulut tabanlı çözümler (ChatGPT, Claude, Gemini) oldukça güçlüdür, ancak yerel çalıştırmanın sunduğu üç kritik avantaj vardır:- Gizlilik ve Güvenlik: Verileriniz asla internete çıkmaz. Şirket sırları veya kişisel notlarınız üzerinde işlem yaparken tam kontrol sizdedir.
- Maliyet: API kullanım ücreti veya aylık abonelik bedeli ödemezsiniz. Bilgisayarınızın elektriği dışında bir masrafınız olmaz.
- Çevrimdışı Erişim: İnternet bağlantınız olmasa bile yapay zekanız yanınızdadır.
2. GPU Olmadan LLM Çalıştırmak Nasıl Mümkün? (GGUF ve Quantization)
Normal şartlarda bir LLM, her bir "ağırlık" (parameter) için yüksek hassasiyetli sayılar kullanır ve bu verilerin hızlı işlenmesi için GPU'nun yüksek bant genişliğine sahip VRAM'ine ihtiyaç duyar. Ancak Quantization (Niceleme) tekniği sayesinde bu ağırlıklar sıkıştırılır.GGUF formatı, CPU üzerinde çalışmak üzere optimize edilmiş bir dosya biçimidir. Bu format, modelin ağırlıklarını 16-bit'ten 4-bit'e (veya daha düşüğe) indirgeyerek hem gereken RAM miktarını azaltır hem de CPU'nun bu matematiksel işlemleri yapabilmesini sağlar. Ollama, bu karmaşık süreci arka planda otomatik olarak yönetir.
3. Ollama Nedir?
Ollama; macOS, Linux ve Windows (önizleme) üzerinde çalışan, modelleri tek bir komutla indirip çalıştırmanızı sağlayan bir kütüphanedir. Docker'ın konteyner mantığına benzer bir yapıyla modelleri (Modelfiles) yönetir.Sistem Gereksinimleri
GPU'nuz olmasa bile şu donanımlara ihtiyacınız vardır:- RAM: En az 8 GB (7B parametreli modeller için). 13B modeller için 16 GB, 30B+ modeller için 32 GB+ önerilir.
- İşlemci: Apple M1/M2/M3 serisi (en iyi performans) veya modern bir Intel/AMD işlemci (AVX2 desteği performansı artırır).
- Depolama: Model başına 4 GB ile 40 GB arası boş alan.
4. Adım Adım Kurulum Rehberi
Adım 1: Ollama'yı İndirin
ollama.com adresine gidin ve işletim sisteminize uygun olan sürümü indirip kurun. Kurulum bittiğinde arka planda bir servis çalışmaya başlayacaktır.Adım 2: İlk Modeli Çalıştırın
Terminalinizi (veya Komut İstemi'ni) açın ve şu komutu yazın:
Kod:
ollama run llama3
Bu komut, Meta'nın Llama 3 modelini otomatik olarak indirir ve sohbet arayüzünü başlatır. CPU üzerinde çalıştığınız için ilk yükleme ve ilk yanıt süresi (latency) GPU'ya göre biraz daha uzun olabilir, ancak modern CPU'larda saniyede 5-10 kelime (token) hızı yakalamak mümkündür.
5. CPU Performansını Optimize Etme Yöntemleri
GPU'suz bir sistemde performansı artırmak için şu stratejileri uygulayabilirsiniz:- Küçük Modeller Seçin: 70B parametreli bir model CPU'da çok yavaş çalışacaktır. Bunun yerine Llama 3 (8B), Mistral (7B) veya kodlama için DeepSeek-Coder gibi "küçük ama yetenekli" modelleri tercih edin.
- RAM Hızı: CPU üzerinde çalışırken en büyük darboğaz RAM hızıdır. Çift kanal (Dual-channel) RAM kullanımı performansı %40'a kadar artırabilir.
- Arka Plan Uygulamaları: Modeli çalıştırırken Chrome gibi çok fazla RAM tüketen uygulamaları kapatmak, "swapping" (disk takas alanı) oluşmasını engelleyerek hızı korur.
6. Arayüz Eklemek: Ollama + WebUI
Sadece terminalde yazışmak sıkıcı geliyorsa, ChatGPT benzeri bir arayüz kurabilirsiniz. En popüler seçenek Open WebUI'dır (eski adıyla Ollama WebUI).Docker kullanarak tek komutla harika bir arayüz kurabilirsiniz:
Kod:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main
Artık tarayıcınızdan localhost:3000 adresine girerek, yüklediğiniz tüm modelleri görsel bir arayüzde yönetebilir ve dokümanlarınızı (RAG) sisteme yükleyebilirsiniz.
7. Gelişmiş Kullanım: Kendi "Model Dosyanı" Oluşturmak
Ollama, modellerin davranışlarını özelleştirmenize izin verir. Örneğin, her zaman Türkçe cevap veren ve bir "Sistem Yöneticisi" gibi davranan bir model oluşturmak için bir Modelfile oluşturabilirsiniz:
Kod:
FROM llama3
PARAMETER temperature 0.7
SYSTEM """
Sen uzman bir sistem yöneticisisin. Tüm sorulara Türkçe ve teknik detaylarla cevap ver.
"""
Sonra şu komutla kendi modelinizi kaydedebilirsiniz:
ollama create uzman-bot -f Modelfile8. Sık Karşılaşılan Sorunlar ve Çözümleri
- Hata: "Ollama server is not running": Ollama uygulamasının açık olduğundan veya servisin çalıştığından emin olun.
- Çok Yavaş Yanıt: RAM kapasiteniz model için yetersiz kalıyor olabilir. Daha küçük modelleri (örn:
phi3,tinyllama) deneyin. - Isınma: CPU tabanlı LLM çalıştırmak işlemciyi %100 yükte tutar. Laptop kullanıyorsanız iyi havalandırma sağladığınızdan emin olun.
9. Özet Tablo: CPU İçin Model Önerileri
| Model Adı | Parametre Sayısı | Gereken RAM | En İyi Kullanım Alanı |
| Llama 3 | 8B | 8 GB | Genel sohbet, yaratıcı yazım. |
| Phi-3 Mini | 3.8B | 4 GB | Düşük donanımlı cihazlar, hızlı yanıt. |
| Mistral | 7B | 8 GB | Akıl yürütme, özetleme. |
| Codestral | 22B | 24 GB+ | İleri seviye kod yazımı. |
| Moondream | 1.6B | 4 GB | Görsel analizi (Vision). |