Veri Yönetimi

Veri Kalitesi Çerçevesi: 6 Boyut, Ölçülebilir Metrikler ve Operasyonel Uygulamalar

Veri kalitesi soyut bir hedef değil; doğruluk, eksiksizlik, tutarlılık, zamanındalık, benzersizlik ve geçerlilik ölçülebilir altı boyutta yönetilir. Pratik metrik formülleri ve operasyonel araçlar.

BIART Ekibi2 dk okuma9 görüntüleme
Veri kalitesi metrikleri ve dashboard görseli

“Bizim veriler temiz değil” cümlesi her CDO toplantısında duyulur. Sorun şu ki “temiz” soyut bir kavram. Veri kalitesini gerçekten yönetmek istiyorsanız, ölçülebilir altı boyut çerçevesinden geçmek zorundasınız: doğruluk, eksiksizlik, tutarlılık, zamanındalık, benzersizlik, geçerlilik. Her birinin pratik metrik formülü ve günlük operasyonda denetlenebilir hâli var.

Altı boyut, altı metrik

  • Doğruluk (Accuracy): kayıtların gerçek dünyayla örtüşmesi. Metrik: doğrulanabilir kaynakla (örneğin TC Kimlik servisi, IBAN doğrulayıcı) eşleşen kayıt oranı.
  • Eksiksizlik (Completeness): zorunlu alanların doluluğu. Metrik: not-null oranı + iş kuralına göre koşullu doluluk (örneğin “kurumsal müşterinin vergi numarası dolu olmalı”).
  • Tutarlılık (Consistency): aynı varlığın farklı sistemlerde aynı görünmesi. Metrik: kaynak sistemler arası eşleşmeyen kayıt oranı (örneğin CRM ile core banking adres farklılığı).
  • Zamanındalık (Timeliness): verinin beklenen güncellikte hazır olması. Metrik: SLA dakika cinsinden kaynaktan analitik katmana akış gecikmesi p95.
  • Benzersizlik (Uniqueness): aynı varlığın çiftlenmemesi. Metrik: deterministik (anahtar) ve probabilistik (entity resolution) duplikasyon oranı.
  • Geçerlilik (Validity): değerin tip/format/aralık kurallarına uyumu. Metrik: schema/regex/aralık ihlali sayısı.

Otomasyon araçları

dbt’nin native testleri (unique, not_null, accepted_values, relationships) ilk kapıyı açar; karmaşık iş kurallarını custom singular test ile yazabilirsiniz. Great Expectations veya Soda Core, dbt’den bağımsız akışlar için (örneğin Snowflake’e ham yüklemeden önce) idealdir. dbt + Soda kombinasyonu, transformation hattının her noktasında kontrolü mümkün kılar.

Data Contract yaklaşımı

2026’da olgunlaşan paradigma: veri üreticisi (producer) ile tüketicisi (consumer) arasında imzalı sözleşme. Producer, schema değişikliği yaparken consumer’ı bozmayacağına dair test edilebilir bir kontrat sunar. Open Source uygulamalar olgunlaştı; pratik araçlar arasında Schemata, Datacontract.com şablonları öne çıkıyor.

Üretim SLA’sı

Sayılarınızı dashboard’a koymak yetmez. Her boyut için eşik + alarm + sahip üçlüsü olmalı: doğruluk %95’in altına düşerse hangi takım ne sürede yanıt verir, kim eskalasyon eder. SLO yaklaşımını veri ekipleri de benimsiyor; Reliability mühendisliği artık veri tarafında da gerçek bir disiplin.

Paylaş