On il boyu təşkilatlar iki ayrı sistem işlətdi: xam verini ucuz saxlayan data lake və sürətli SQL üçün strukturlaşmış data warehouse. Veri çox vaxt iki dəfə kopyalandı, iki dəfə idarə olundu, iki həqiqət istehsal etdi. Lakehouse memarlığı bu ikiliyi bitirmək iddiasındadır: nesne yaddaşının ucuzluğu ilə warehouse-un etibarlılığını vahid qatda birləşdirir.
Problem: lake ilə warehouse arasındakı uçurum
Klassik memarlıqda veri axını belə idi: mənbələr → data lake (Parquet/CSV, ucuz amma ACID yox) → ETL → data warehouse (sürətli, ACID, amma bahalı və qapalı). Nəticə: gecikmə, ikili xərc, lineage qopuqluğu və 'hansı kopya doğru' mübahisəsi.
Açıq cədvəl formatları
Lakehouse-u mümkün edən texnologiya açıq cədvəl formatlarıdır: Apache Iceberg, Delta Lake və Apache Hudi. Bunlar nesne yaddaşındakı Parquet fayllarının üzərinə metadata qatı əlavə edir və bu imkanları gətirir:
- ACID transaction: eşzamanlı yazma/oxuma tutarlılığı.
- Time-travel: cədvəlin keçmiş versiyasını sorğulama (audit və xəta düzəltmə üçün kritik).
- Schema evolution: cədvəli yenidən yazmadan sütun əlavə etmə/dəyişdirmə.
- Partition evolution: sorğu performansını pozmadan partition strategiyasını dəyişmə.
Medallion memarlığı
Lakehouse-da veri adətən üç keyfiyyət qatında irəliləyir:
- Bronze: mənbədən gələn xam veri, demək olar toxunulmamış.
- Silver: təmizlənmiş, tekilləşdirilmiş, birləşdirilmiş veri.
- Gold: biznes üçün hazır aqreqat və metric cədvəlləri (BI və ML oradan qidalanır).
Hər qat eyni açıq formatda durur; ayrı sistem yox, yalnız yetkinlik səviyyəsi fərqli.
Compute-storage ayrımı
Lakehouse-un iqtisadi üstünlüyü compute ilə storage-ın ayrı miqyaslanmasıdır. Veri S3/ADLS/GCS-də ucuz durur; sorğu anında Spark, Trino, Dremio və ya Databricks kimi motorlar müvəqqəti compute açır. Gecə kimsə sorğu etmirsə compute xərci sıfıra enir; warehouse-dakı '7/24 açıq klaster' xərci aradan qalxır.
Warehouse tamamilə ölürmü?
Xeyr. Çox aşağı gecikmə tələb edən, yüksək eşzamanlı BI yüklərində Snowflake/BigQuery kimi idarə olunan warehouse-lar hələ də daha öngörülə bilən performans verir. Bir çox təşkilat hibrid gedir: lakehouse xam + silver + ML üçün, warehouse isə gold/BI servis qatı üçün. Iceberg kimi formatların həm Snowflake həm Spark tərəfindən oxuna bilməsi bu hibridi asanlaşdırır.
Keçid planı
Mövcud lake + warehouse-dan lakehouse-a tipik keçid:
- Açıq format seçin (ekosisteminizə görə Iceberg və ya Delta).
- Bronze/silver qatını lake-dən lakehouse formatına köçürün.
- dbt və ya Spark ilə gold qatını təyin edin; metric-ləri semantik qata bağlayın.
- BI alətlərini əvvəlcə gold cədvəllərinə yönəldin, warehouse-u tədricən təqaüdə çıxarın.
- Time-travel və lineage-ı audit proseslərinə inteqrasiya edin.
Yekun
Lakehouse 'ucuz amma dağınıq lake' ilə 'sürətli amma bahalı warehouse' arasındakı on illik seçimi açıq cədvəl formatları ilə aradan qaldırır. ACID, time-travel və schema evolution sayəsində vahid veri kopyası həm ML həm BI-ı qidalandırır. Doğru qurulduqda ikili xərc, ikili kopya və 'hansı doğru' mübahisəsi bitir.
