Фраза «у нас грязные данные» звучит на каждой встрече CDO. Проблема в том, что «грязные» — это абстрактный вердикт. Чтобы реально управлять качеством, нужно пройти через каркас из шести измеримых измерений: точность, полнота, согласованность, своевременность, уникальность, валидность. У каждого есть конкретная формула и эксплуатационная форма, которую можно проверять ежедневно.
Шесть измерений, шесть метрик
- Точность (Accuracy): записи соответствуют реальному миру. Метрика: доля записей, совпадающих с проверяемым источником (национальный ID-сервис, валидатор IBAN).
- Полнота (Completeness): обязательные поля заполнены. Метрика: not-null + условная полнота по бизнес-правилу.
- Согласованность (Consistency): одна и та же сущность одинаково выглядит в разных системах. Метрика: доля несовпадающих строк между источниками.
- Своевременность (Timeliness): данные доступны в ожидаемой свежести. Метрика: задержка от источника до аналитики в минутах (p95) против SLA.
- Уникальность (Uniqueness): сущность не дублируется. Метрика: процент дубликатов по детерминированной и вероятностной логике.
- Валидность (Validity): значения соответствуют правилам типа/формата/диапазона. Метрика: количество нарушений schema/regex/range.
Инструменты автоматизации
Нативные тесты dbt (unique, not_null, accepted_values, relationships) открывают первую дверь; сложные бизнес-правила пишутся как singular tests. Great Expectations и Soda Core идеальны для потоков вне dbt (например, перед сырой загрузкой в Snowflake). Связка dbt + Soda даёт контроль на каждом узле трансформации.
Подход Data Contract
Парадигма, созревшая в 2026-м: подписанное соглашение между производителем и потребителем данных. Producer тестируемым контрактом обязуется не ломать consumer-ов при смене схемы. Open-source решения окрепли; в практике лидируют Schemata и шаблоны Datacontract.com.
Production SLA
Выложить цифры на дашборд недостаточно. Каждому измерению нужна тройка порог + алерт + владелец: если точность падает ниже 95%, какая команда отвечает в каком окне, кто эскалирует. Подход SLO добрался и до данных; reliability engineering стало реальной дисциплиной на стороне данных.
