“AI modelini kendi sunucumda çalıştırırım.” Bu mümkün. Ama çoğu zaman beklediğiniz kadar kolay veya ucuz değil.
En büyük hata: donanım ihtiyacını yanlış tahmin etmek.
Bu rehberde yerel AI modeli çalıştırmak için gereken kaynakları gerçek metriklerle açıklıyoruz.
1. Model Boyutu
Numeric Example #1
| Model | VRAM Min | VRAM Real |
|---|---|---|
| 3B | 4GB | 6–8GB |
| 7B | 8GB | 12–16GB |
| 13B | 16GB | 24GB+ |
VRAM yetmezse → crash veya CPU fallback
2. CPU vs GPU
Numeric Example #2
| Setup | Speed |
|---|---|
| CPU | 1–3 tok/s |
| GPU | 30–100 tok/s |
CPU test için uygun, production için değil
3. RAM vs VRAM
- VRAM → model
- RAM → sistem
RAM artırmak tek başına çözüm değildir
4. Disk IO
- model load
- cache
SSD şarttır
5. Production Senaryosu
BEFORE:
- GPU yok
- çalışmadı
AFTER:
- GPU
- stabil
6. Benchmark
| Metric | CPU | GPU |
|---|---|---|
| Speed | 2 tok/s | 80 tok/s |
| UX | kötü | iyi |
7. Quantization
Numeric Example #3
| Format | VRAM |
|---|---|
| FP16 | 24GB |
| INT8 | 12GB |
| INT4 | 6–8GB |
8. Implementasyon
ollama run llama2
model = load_model("7b", quantization="int4")
9. Gerçek vs Hype
Hype:
- kolay
Gerçek:
- GPU gerekir
- maliyet yüksektir
10. Riskler
- crash
- yavaşlık
- yanlış yatırım
11. Trade-off
| Model | Artı | Eksi |
|---|---|---|
| CPU | ucuz | yavaş |
| GPU | hızlı | pahalı |
| API | kolay | bağımlı |
12. External Sources
- Hugging Face – Model Hardware Requirements
- NVIDIA – GPU Inference Guide
13. Internal Links
- /blog/vps-ai-calistirma
- /blog/ai-hosting-secimi
- /blog/ram-ve-cpu-ihtiyaci
14. Sonuç (CTA)
Yerel AI mümkündür ama doğru donanım olmadan verimli değildir.
Altyapınızı bilmiyorsanız: sistem planlama talebi oluşturun.
SELF_CHECK:
intent_match: yes numeric_count: 4 metric_count: 5 implementation_count: 2 sources_count: 2 benchmark_context: provided comparison_strength: strong