"Lake mi warehouse mı?" sorusu yanlış bir soru gibi görünebilir, çünkü modern mimarilerde iki kavram lakehouse adı altında birleşti. Ancak temelde farklı iki ihtiyaca yanıt verdikleri için, kurumların hâlâ her iki paradigmayı anlaması gerekiyor.
Temel Fark
Data warehouse (DWH) yapılandırılmış, şema dayatılmış ve öncelikle raporlama için optimize edilmiş bir depolama katmanıdır. Star veya snowflake schema ile modellenir, SQL sorguları için indekslenir ve BI araçlarına doğrudan bağlanır.
Data lake ise şema-on-read yaklaşımını benimser. Veriyi önce ham olarak depolar (JSON, parquet, görüntü, log), analitik ihtiyacı ortaya çıktığında üzerine yapı eklenir. Makine öğrenmesi, semi-structured veri ve ölçek gerektiren iş yükleri için uygundur.
Lakehouse Nasıl Birleştiriyor
Databricks Delta Lake, Apache Iceberg ve Snowflake Polaris gibi projelerle lakehouse konsepti, data lake'in esnekliğini warehouse'un ACID ve performans garantileriyle birleştiriyor. Bir kurum artık aynı depolama katmanında hem ML pipeline'larını hem BI raporlarını çalıştırabiliyor.
Kararı Ne Belirler?
- Veri tipi çeşitliliği: Ağırlıklı transaction verisi varsa ve BI birincil kullanımsa, warehouse öncelikli.
- ML ve AI hacmi: Görüntü, metin, çok büyük zaman serisi varsa lake öncelikli.
- Ölçek ve maliyet: Petabayt ölçeğinde depolama, lake'te kat kat daha ekonomik.
- Sorgu gecikmesi: Yönetim kurulu dashboard'unun 2 saniyede açılması gerekiyorsa, warehouse katmanı şart.
Pratik Tavsiye
Orta ölçekli Türkiye müşterilerimizde şu deseni görüyoruz: Snowflake veya Azure Synapse warehouse'un üzerine, Databricks veya Fabric üzerinde lakehouse katmanı. Operasyonel raporlama warehouse'tan, ML pipeline'ları ve ham veri arşivi lakehouse'tan. Tek katmanlı saf mimariler nadiren ölçeği karşılıyor.
