“Bizim veriler temiz değil” cümlesi her CDO toplantısında duyulur. Sorun şu ki “temiz” soyut bir kavram. Veri kalitesini gerçekten yönetmek istiyorsanız, ölçülebilir altı boyut çerçevesinden geçmek zorundasınız: doğruluk, eksiksizlik, tutarlılık, zamanındalık, benzersizlik, geçerlilik. Her birinin pratik metrik formülü ve günlük operasyonda denetlenebilir hâli var.
Altı boyut, altı metrik
- Doğruluk (Accuracy): kayıtların gerçek dünyayla örtüşmesi. Metrik: doğrulanabilir kaynakla (örneğin TC Kimlik servisi, IBAN doğrulayıcı) eşleşen kayıt oranı.
- Eksiksizlik (Completeness): zorunlu alanların doluluğu. Metrik: not-null oranı + iş kuralına göre koşullu doluluk (örneğin “kurumsal müşterinin vergi numarası dolu olmalı”).
- Tutarlılık (Consistency): aynı varlığın farklı sistemlerde aynı görünmesi. Metrik: kaynak sistemler arası eşleşmeyen kayıt oranı (örneğin CRM ile core banking adres farklılığı).
- Zamanındalık (Timeliness): verinin beklenen güncellikte hazır olması. Metrik: SLA dakika cinsinden kaynaktan analitik katmana akış gecikmesi p95.
- Benzersizlik (Uniqueness): aynı varlığın çiftlenmemesi. Metrik: deterministik (anahtar) ve probabilistik (entity resolution) duplikasyon oranı.
- Geçerlilik (Validity): değerin tip/format/aralık kurallarına uyumu. Metrik: schema/regex/aralık ihlali sayısı.
Otomasyon araçları
dbt’nin native testleri (unique, not_null, accepted_values, relationships) ilk kapıyı açar; karmaşık iş kurallarını custom singular test ile yazabilirsiniz. Great Expectations veya Soda Core, dbt’den bağımsız akışlar için (örneğin Snowflake’e ham yüklemeden önce) idealdir. dbt + Soda kombinasyonu, transformation hattının her noktasında kontrolü mümkün kılar.
Data Contract yaklaşımı
2026’da olgunlaşan paradigma: veri üreticisi (producer) ile tüketicisi (consumer) arasında imzalı sözleşme. Producer, schema değişikliği yaparken consumer’ı bozmayacağına dair test edilebilir bir kontrat sunar. Open Source uygulamalar olgunlaştı; pratik araçlar arasında Schemata, Datacontract.com şablonları öne çıkıyor.
Üretim SLA’sı
Sayılarınızı dashboard’a koymak yetmez. Her boyut için eşik + alarm + sahip üçlüsü olmalı: doğruluk %95’in altına düşerse hangi takım ne sürede yanıt verir, kim eskalasyon eder. SLO yaklaşımını veri ekipleri de benimsiyor; Reliability mühendisliği artık veri tarafında da gerçek bir disiplin.
