2010-ların böyük veri memarlığı "hər şey Hadoop-da" idi. 2020-lərin əvvəli bunu "lake + warehouse" cütünə çevirdi. 2026-ya gəldiyimizdə şəkil üç sütun üzərində dayanır: açıq cədvəl formatları üzərində qurulan lakehouse, Kafka əsaslı real-vaxt axın və vector store ilə zənginləşdirilmiş RAG qatı. Düzgün qərarlar bu üç sütunu bütöv görür.
Sütun 1: Lakehouse və açıq cədvəl formatları
Apache Iceberg, Delta Lake və Apache Hudi üçlüyü artıq əksər korporativ platformlarda standartdır. Lakehouse-un əsas vədi: lake çevikliyi + warehouse ACID + tək governed qat.
- Vendor müstəqilliyi: eyni cədvəl Snowflake, Databricks və Trino üzərindən oxuna bilər.
- Xərc: storage object storage-dadır; compute istəyə görə seçilir.
- Schema evolution, time travel, partition evolution: ehtiyacların əksəriyyəti standartdır.
2026 trendi: eyni cədvəlləri çoxlu motor üzərindən oxumaq yayılır. Catalog seçimi (Polaris, Unity Catalog, Nessie) artıq vendor deyil memarlıq qərarıdır.
Sütun 2: Real-vaxt axın
Klassik ETL-in (gecə batch, səhər hesabat) yerini saatlıq / dəqiqəlik / saniyəlik axınlar alır. Üç tipik istifadə:
Əməliyyat CDC. Core sistemdən xam dəyişikliklərin Iceberg və ya Delta cədvəllərinə köçürülməsi. Debezium + Kafka Connect + Iceberg sink standart.
Real-time materialised view. ksqlDB, Apache Flink və ya Materialize ilə axındakı veri üzərindən davamlı yenilənən aqreqasiyalar.
Event-driven ML. Feature store (Feast, Tecton) üzərində modelin canlı veri ilə qidalanması. Kart fırıldaq kimi sürətli reaksiya tələb edən ssenarilər üçün qaçınılmaz.
Streaming infrastrukturu tasarlanırken sıxlıqla unutulan üç şey: schema registry, dead-letter queue strategiyası və rebuild proseduru.
Sütun 3: Vector store və RAG
LLM-in korporativ qəbul sürəti 2024-dən bəri qatlanaraq artdı. 2026-da vector store artıq əməliyyat veri platformasının standart hissəsidir: sənəd embedding-ləri, məhsul embedding-ləri, semantik axtarış, RAG asistanı.
Tipik birləşmələr:
- pgvector: az veri ilə başlayan müəssisələr üçün ən praqmatik seçim.
- Qdrant / Weaviate / Milvus: böyük miqyas və hibrid (sparse + dense) sorğu üçün.
- Snowflake / Databricks daxili vector imkanları.
Vector store-un governance məsuliyyəti klassik cədvəldən fərqli deyil: giriş nəzarəti, audit log, embedding-in mənbəyi. KVKK uyumu üçün kişisel məlumat içeren embedding-lərin həyat dövrü açıq sənədli olmalıdır.
Memarlıq qərarı: necə birləşdirilir?
Tipik 2026 axın diaqramı:
- Mənbə sistemləri (CRM, ERP, core banking, web log) → Kafka.
- Kafka → Iceberg / Delta cədvəllərinə bronze qat.
- Spark və ya dbt-on-Snowflake / Databricks ilə silver və gold qatları.
- Gold → BI (Power BI, Tableau, Qlik) və self-service analytics.
- Gold + sənəd hovuzu → embedding pipeline → vector store.
- RAG asistanı: vector store + LLM + biznes sənədləri.
- Əməliyyat ML: feature store + real-time scoring service.
Ətrafında: Data catalog (DataHub, Atlan, Purview), data observability (Monte Carlo, Bigeye, Soda), cost / FinOps observability.
Ən sıx memarlıq səhvləri
Streaming qatını lakehouse ilə birləşdirməmək. Eyni cədvəlin batch və streaming versiyaları olduğunda iki həqiqət doğar.
Vector store-u silo olaraq mövqeləndirmək. Ana data catalog-dan görünməyən vector cədvəlləri zamanla idarə olunmaz bir bilgi kölgəsinə çevrilir.
Schema registry istifadə etməmək. "Avro / Protobuf məcburidirmi" sualı 2026-da artıq geridə qaldı; cavab bəlidir.
Nəticə
Müasir böyük veri memarlığı tək texnologiyanın deyil, doğru qərarların cəmi. Lakehouse, streaming və vector — üç sütun bir-birindən ayrı işləmək üçün təşkil edilməyib. Doğru tasarımda BI dashboard, ML modeli və RAG asistanı eyni governed veri hovuzundan qidalanır.
