Yapay Zeka ve Makine Öğrenmesi

Bankalar için On-Prem LLM Stratejisi: Ollama, vLLM ve TEI

2026 itibarıyla bankacılık AI projelerinde tartışma cloud’dan on-prem’e kayıyor. Üç motorun pratik karşılaştırması, GPU bütçesi ve uyum boyutu.

BIART Ekibi3 dk okuma1 görüntüleme
On-prem LLM ve banka altyapısı görseli

İki yıl önce LLM tartışması "ChatGPT mi, Claude mı, Gemini mi" idi. 2026’da banka tarafında soru farklılaştı: "modeli kendi VPC’mde çalıştırabilir miyim, ne pahasına?" KVKK, BDDK ve gelmekte olan EU AI Act kuralları arttıkça müşteri verisinin dış sağlayıcıya gönderilmesi her sorgu için açık rıza gerektiriyor. Çözüm: on-prem LLM. Üç olgunlaşmış motor var.

Ollama — geliştirici ergonomi

CPU + GPU karışık yüklerde en pratik motor. Tek binary, model formatı GGUF, cold start saniyeler. KV cache q8_0, MAX_LOADED_MODELS=3, KEEP_ALIVE=60m gibi ayarlarla küçük bütçelerde bile makul. Pilot ve dar üretim için ideal: bir bankada 8 vCPU + 24 GB RAM, GPU yok bir VM’de Qwen2.5 7B q4_K_M ile sorgu başına 8-15 saniye anlatım yapılabiliyor. Banking-tr few-shot ve doğru prompt ile bu sürelerde otomasyon değil ama analist asistanı kurulabilir.

vLLM — üretim throughput

GPU ortamı için açık ara en yüksek throughput. PagedAttention ve continuous batching ile aynı GPU üstünde 5-10 kat daha çok eşzamanlı istek. Tipik bankacılık üretim ortamı: 1×RTX 4090 veya 1×L40S üstünde Qwen2.5 14B q4 + nomic-embed text 768. Hesap: 24 GB VRAM içinde planner + narrator + embed servisi sığar. Üretim yükü 50 eşzamanlı sorguya kadar tek kart yeter.

TEI — text embeddings inference

HuggingFace’in açık embedding sunucusu. nomic-embed-text-v1.5, bge-m3, e5-mistral gibi modelleri optimize edilmiş şekilde sunar. RAG / vector search yükü için ayrı bir process tutmak Ollama / vLLM ile çakışmayı önler. CentraQL gibi bir Copilot mimarisinde planner + narrator vLLM, embedding TEI olarak ayrılır — single point of contention engellenmiş olur.

Uyum boyutu

EU AI Act yüksek-risk kategorisi (kredi skorlama, biyometrik tanımlama) için audit, açıklanabilirlik ve insan-in-the-loop zorunlu. KVKK Mart 2026 rehberi ile açık rıza gereksinimi netleşti. Cloud LLM bir engellenebilir egress noktasıdır; her isteğin gerekçesi denetim kaydına yazılmalı. CentraQL’ın ComplianceProfile + EgressGuard yapısı bu denetimi runtime tarafına çeker — geliştirici cloud çağrısı yapmak isterse profil "RegulatedFinance" olduğunda istek bloklanır.

Maliyet karşılaştırması

3 milyon sorgu/yıl banka analitik yükü için tipik karşılaştırma:

  • Cloud (Anthropic Claude Sonnet): ~$15-25K/yıl token bazlı, üstüne aylık VPC yükü.
  • On-prem (1× RTX 4090 + vLLM): ~$2K kart amortismanı + ~1.2 kW elektrik. 18 ay sonra başa baş; 3. yıl maliyet önemsizleşir.
  • Hibrit: planner + narrator on-prem, embedding cloud’dan. Genelde değerli değil; embedding zaten ucuz, ama veri sızar.

Pratik tavsiye

Pilot için Ollama (CPU yetiyor olabilir, deneyimle başla). Üretim için vLLM (GPU şart, throughput katlanır). Embedding için TEI (ayrı process). Banka domain dilini iyileştirmek için LoRA fine-tune (banking-tr / banking-en domain pack ile başlangıç dataset).

CentraQL’ın bu üç motor için adapter abstraksiyonu var; OpenAI-uyumlu uçnokta arkasında istediğinizi bağlarsınız. Live demo şu an Ollama üstünde 8 vCPU CPU-only çalışıyor; Q1 2027’de RTX 4090’a geçiş planlanıyor.

Paylaş