2010’ların büyük veri mimarisi, "her şey Hadoop’ta" idi. 2020’lerin başı bunu “lake + warehouse” ikilisine dönüştürdü. 2026’ya geldiğimizde resim üç temel direk üstünde duruyor: açık tablo formatları üzerine kurulu lakehouse, Kafka tabanlı gerçek zamanlı akış ve vector store ile zenginleştirilmiş RAG katmanı. Doğru kararlar bu üç direği bir bütün olarak görür.
Direk 1: Lakehouse ve açık tablo formatları
Apache Iceberg, Delta Lake ve Apache Hudi üçlüsü artık çoğu kurumsal platformda standart. Lakehouse'un temel vaadi, lake esnekliği + warehouse ACID özellikleri + tek bir governed katmandır. Faydalar:
- Vendor bağımsızlığı: aynı tablo Snowflake, Databricks, Trino üstünden okunabilir.
- Maliyet: storage object storage'da; compute istediğinizden seçilir.
- Schema evolution, time travel, partition evolution: ihtiyaçlarda çoğu artık standart.
2026 trendi: aynı tabloları çoklu motor (Snowflake + Databricks + Trino) üstünden okumak yaygınlaşıyor. Bunun için katalog seçimi (Polaris, Unity Catalog, Nessie) artık vendor değil mimari kararı.
Direk 2: Gerçek zamanlı akış
Klasik ETL'in (gece batch, sabah rapor) yerini hour-level / minute-level / second-level akışlar alıyor. Üç tipik kullanım:
Operasyonel CDC. Core sistemden ham değişikliklerin Iceberg veya Delta tablolarına aktarımı. Debezium + Kafka Connect + Iceberg sink kombinasyonu standart.
Real-time materialised view. ksqlDB, Apache Flink veya Materialize ile, akıştaki veri üzerinden sürekli güncellenen agregasyonlar. Fraud skorlama, kampanya tetikleme, dashboard yenileme bu yapıdan beslenir.
Event-driven ML. Feature store (Feast, Tecton) üstünde modelin canlı veriyle beslenmesi. Hızlı tepki gereken senaryolar (kart fraud) için kaçınılmaz.
Streaming altyapısı tasarlanırken sıkça unutulan üç şey: schema registry, dead-letter queue stratejisi ve rebuild prosedürü. Üçü olmadan bir streaming platform üretimde sürdürülebilir değil.
Direk 3: Vector store ve RAG
LLM'in kurumsal kabul hızı 2024'ten beri katlanarak arttı. 2026'da vector store artık operasyonel veri platformunun standart bir parçası: doküman embedding'leri, ürün embedding'leri, semantik arama, RAG asistanı.
Tipik kombinasyonlar:
- pgvector: az veriyle başlayan kurumlar için en pragmatik seçim.
- Qdrant / Weaviate / Milvus: büyük ölçek ve hibrit (sparse + dense) sorgu için.
- Snowflake / Databricks içine entegre vector özellikleri: tek platformda kalmayı tercih edenler için.
Vector store'un governance sorumluluğu klasik tablodan farksızdır: erişim kontrolü, audit log, embedding'in kaynağı (lawful source). KVKK uyumu için kişisel veri içeren embedding'lerin yaşam döngüsü açıkça belgelidir.
Tasarım kararı: nasıl bir araya getirilir?
Bir 2026 büyük veri platformunun tipik akış diyagramı:
- Kaynak sistemler (CRM, ERP, core banking, web log) → Kafka.
- Kafka → Iceberg / Delta tablolarına bronze katman.
- Spark veya dbt-on-Snowflake / Databricks ile silver ve gold katmanlar.
- Gold üzerinden BI (Power BI, Tableau, Qlik) ve self-service analytics.
- Gold + doküman havuzu → embedding pipeline → vector store.
- RAG asistanı: vector store + LLM (Claude, GPT, Gemini, in-VPC model) + işletme dokümanları.
- Operasyonel ML: feature store + real-time scoring service.
Bu akışın etrafına eklenen yardımcı katmanlar:
- Data catalog (DataHub, Atlan, Purview): keşif, sahiplik, governance.
- Data observability (Monte Carlo, Bigeye, Soda): anomaly tespiti, freshness, schema değişimi.
- Cost / FinOps observability (Cloudability, custom Snowflake / Databricks dashboards): bütçe kontrolü.
En sık karşılaşılan tasarım hataları
Streaming katmanını lakehouse ile birleştirmemek. Aynı tablonun bir batch versiyonu, bir streaming versiyonu olduğunda iki gerçek doğar. Üzücü ama yaygın.
Vector store'u silo olarak konumlamak. Ana data catalog'tan görünmeyen vector tabloları zamanla yönetilemez bir bilgi gölgesi yaratır.
Schema registry kullanmamak. "Avro / Protobuf zorunlu mu?" sorusu 2026'da artık geride kaldı; cevap evet.
Sonuç
Modern büyük veri mimarisi tek bir teknolojinin değil, doğru kararların toplamıdır. Lakehouse, streaming ve vector — üç direk birbirinden bağımsız çalışmak için tasarlanmadı. Doğru tasarımda, BI panosu, ML modeli ve RAG asistanı aynı governed veri havuzundan beslenir; ve kurum, AI çağında hangi yatırımı niye yaptığını cümle cümle açıklayabilir.
