Süni İntellekt və Maşın Öyrənməsi

Banklar üçün On-Prem LLM Strategiyası: Ollama, vLLM və TEI

2026-da bankçılıq AI layihələrində mübahisə cloud-dan on-prem-ə keçir. Üç motorun praktik müqayisəsi, GPU büdcəsi və uyumluluq.

BIART Ekibi3 dəq oxu1 baxış
On-prem LLM ve banka altyapısı görseli

İki il əvvəl LLM mübahisəsi "ChatGPT, Claude, yoxsa Gemini" idi. 2026-da bank tərəfində sual fərqlənir: "modeli öz VPC-mdə işlədə bilərəm mi, hansı qiymətə?" KVKK, BDDK və gələn EU AI Act qaydaları sıxlaşdıqca müştəri məlumatının xarici təminatçıya göndərilməsi hər sorğu üçün açıq razılıq tələb edir. Cavab: on-prem LLM. Üç yetkin motor var.

Ollama — developer ergonomiyası

CPU + GPU qarışıq yüklər üçün ən praktik motor. Tək binary, GGUF model formatı, cold start saniyələrdə. KV cache q8_0, MAX_LOADED_MODELS=3, KEEP_ALIVE=60m kimi ayarlarla kiçik büdcələr belə işləyir. Pilot və dar istehsal üçün idealdır: bir bankda 8 vCPU + 24 GB RAM, GPU yox VM-də Qwen2.5 7B q4_K_M ilə sorğu başına 8-15 saniyə izah verilə bilir. Avtomasiya deyil, lakin analitik asistanı qurmaq mümkündür.

vLLM — istehsal throughput

GPU mühitində açıq ara ən yüksək throughput. PagedAttention və continuous batching ilə eyni GPU üzərində 5-10 dəfə daha çox eşzamanlı sorğu. Tipik bank istehsal mühiti: 1×RTX 4090 və ya 1×L40S üzərində Qwen2.5 14B q4 + nomic-embed-text 768. Hesablama: 24 GB VRAM-da planner + narrator + embedding sığır; tək kart üzərində ~50 eşzamanlı sorğu davam etdirilir.

TEI — text embeddings inference

HuggingFace-in açıq embedding serveri. nomic-embed-text-v1.5, bge-m3, e5-mistral kimi modelləri optimizasiyalı şəkildə təqdim edir. Embedding-i ayrı bir prosesdə saxlamaq Ollama / vLLM ilə resurs çəkişməsini qarşısını alır. CentraQL kimi Copilot memarlığında planner + narrator vLLM, embedding TEI olaraq ayrılır.

Uyumluluq boyutu

EU AI Act yüksək-risk kateqoriyası (kredit skorlaması, biometrik identifikasiya) audit, izah edilə bilənlik və human-in-the-loop tələb edir. KVKK 2026 mart rəhbərliyi ilə açıq razılıq tələbi dəqiqləşdi. Cloud LLM bir egress nöqtəsidir; hər sorğunun əsası audit-loga yazılmalıdır. CentraQL-in ComplianceProfile + EgressGuard quruluşu bu nəzarəti runtime-a çəkir — profil "RegulatedFinance" olduqda cloud çağırışı sorğu sərhədində bloklanır.

Xərc müqayisəsi

3 milyon sorğu/il bank analitik yükü üçün tipik müqayisə:

  • Cloud (Anthropic Claude Sonnet): ~$15-25K/il token əsaslı + aylıq VPC yükü.
  • On-prem (1× RTX 4090 + vLLM): ~$2K kart amortizasiyası + ~1.2 kW elektrik. 18 aydan sonra paritet; 3-cü ildə xərc əhəmiyyətsizləşir.
  • Hibrid: planner + narrator on-prem, embedding cloud-dan. Çox vaxt dəyər vermir; embedding artıq ucuzdur, məlumat sızıntısı qalır.

Praktik tövsiyə

Pilot üçün Ollama (CPU kifayət edə bilər, təcrübə ilə başla). İstehsal üçün vLLM (GPU şərt). Embedding üçün TEI. Bank domen dilini yaxşılaşdırmaq üçün LoRA fine-tune (banking-tr / banking-en domain pack ilə başlanğıc dataset).

CentraQL-in bu üç motor üçün adapter abstraksiyası var; OpenAI uyumlu uçnoqta arxasında istədiyinizi bağlaya bilərsiniz. Canlı demo hal-hazırda Ollama üzərində 8 vCPU CPU-only işləyir; Q1 2027-də RTX 4090-a keçid planlanır.

Paylaş