On-prem LLM-стратегия для банков: Ollama, vLLM и TEI

Два года назад спор по LLM был "ChatGPT vs Claude vs Gemini". В 2026-м в банке другой вопрос: "могу ли я держать модель внутри собственного VPC и за какую цену?" С ужесточением KVKK, BDDK и приходом EU AI Act передача клиентских данных стороннему провайдеру требует явного согласия на каждый запрос. Ответ — on-prem LLM. Три движка дозрели.

Ollama — эргономика разработчика

Лучше всего для смешанных CPU + GPU нагрузок. Один бинарь, формат GGUF, холодный старт за секунды. С KV cache q8_0, MAX_LOADED_MODELS=3, KEEP_ALIVE=60m и аналогичными настройками малые бюджеты остаются жизнеспособными. Подходит для пилотов и узкого продакшена: в одном банке VM 8 vCPU / 24 ГБ RAM без GPU и Qwen2.5 7B q4_K_M даёт нарратив за 8-15 секунд на запрос. Не автоматизация, но рабочий ассистент аналитика с banking-tr-few-shots.

vLLM — продакшен-throughput

С большим отрывом самый высокий throughput на GPU. PagedAttention и continuous batching дают 5-10× больше параллельных запросов на той же карте. Типичный продакшен-уровень в банке: 1× RTX 4090 или 1× L40S, Qwen2.5 14B q4 + nomic-embed-text 768. Расчёт: planner + narrator + embedding влезают в 24 ГБ VRAM; одной карты хватает на ~50 параллельных запросов.

TEI — text embeddings inference

Открытый embedding-сервер от HuggingFace. Подаёт nomic-embed-text-v1.5, bge-m3, e5-mistral в оптимизированном процессе. Хранить embedding на отдельном воркере — значит не конкурировать с planner/narrator за GPU. В Copilot-архитектуре вроде CentraQL planner + narrator на vLLM, а embeddings на TEI.

Комплаенс

EU AI Act high-risk (кредитный скоринг, биометрия) требует аудит, объяснимость и human-in-the-loop. Гайд KVKK марта 2026 фиксирует явное согласие на отправку персональных данных провайдеру LLM. Cloud LLM — контролируемый egress; каждый запрос должен оправдывать себя в аудит-логе. ComplianceProfile + EgressGuard в CentraQL переносит этот контроль в runtime — при профиле RegulatedFinance любой cloud-вызов блокируется на границе запроса.

Картина по стоимости

Для типичной нагрузки 3 млн запросов/год:

Cloud (Anthropic Claude Sonnet): ~$15-25K/год по токенам + ежемесячный оверхед VPC.
On-prem (1× RTX 4090 + vLLM): ~$2K амортизация карты + ~1.2 кВт электричества. Точка безубыточности — около 18 месяцев; с 3-го года стоимость становится незначимой.
Гибрид: planner + narrator on-prem, embedding из облака. Редко стоит делать — embedding и так дёшев, а данные всё равно утекают.

Практическая рекомендация

Для пилотов — Ollama (часто хватает CPU; начните с экспериментов). Для продакшена — vLLM (GPU обязателен; throughput кратно вырастает). Для embedding — TEI (отдельный процесс). Для доменного языка — LoRA fine-tune c domain pack banking-tr / banking-en как стартовым датасетом.

В CentraQL есть adapter-абстракция для всех трёх движков; за OpenAI-совместимым эндпоинтом вы подключаете что хотите. Live-демо сегодня работает на Ollama с CPU-only 8 vCPU; миграция на RTX 4090 запланирована на Q1 2027.

KVKK / GDPR Core Banking Комплаенс LLM

On-prem LLM-стратегия для банков: Ollama, vLLM и TEI

Ollama — эргономика разработчика

vLLM — продакшен-throughput

TEI — text embeddings inference

Комплаенс

Картина по стоимости

Практическая рекомендация

От естественного языка к проверенному SQL: роль семантического слоя

Что такое CentraQL — и чем он занимается?

Корпоративная программа качества данных: операционный каркас

On-prem LLM-стратегия для банков: Ollama, vLLM и TEI

Ollama — эргономика разработчика

vLLM — продакшен-throughput

TEI — text embeddings inference

Комплаенс

Картина по стоимости

Практическая рекомендация

Связанные статьи

От естественного языка к проверенному SQL: роль семантического слоя

Что такое CentraQL — и чем он занимается?

Корпоративная программа качества данных: операционный каркас