Разговоры о качестве данных почти всегда начинаются одинаково: KPI вышел неверным, регуляторный отчёт отклонён, или новый ИИ-проект провалился не из-за галлюцинаций модели, а из-за "грязных данных". Корень проблемы редко в технологии — он в том, что качество данных рассматривается как проект, а не как программа.
Программа против проекта
Проектный паттерн: команда работает два месяца, проводит чистку, ставит дашборд и расходится. Через три месяца метрики снова падают. Программный паттерн: измерения, владение, пороги, эскалация и отчётность встраиваются в рутину организации и отслеживаются как любой KPI.
Шесть столпов программы
1) Измерение. Качество управляется по шести измерениям: точность, полнота, согласованность, своевременность, уникальность, валидность. У каждого — конкретная формула.
2) Владение. У каждого актива (таблица клиентов, каталог продуктов, записи счетов) есть бизнес-владелец и технический steward. При нарушении порога звонят обоим.
3) Пороги и SLA. Каждое измерение получает цветной порог: зелёный, жёлтый, красный. Если точность таблицы клиентов падает ниже 95% — жёлтый; ниже 90% — красный и инцидент.
4) Автоматизация. Нативные тесты dbt (unique, not_null, accepted_values, relationships) — первая линия. Сложные правила пишутся как singular tests или в Great Expectations / Soda Core. Тесты выполняются в CI/CD и блокируют сломанные трансформации до merge.
5) Data contracts. Тестируемый контракт между producer-ом и consumer-ом несёт schema- и семантические ожидания. CI показывает, сломает ли изменение schema-ы потребителей.
6) Отчётность. Ежемесячный дашборд качества данных уходит в исполнительный слой: тренд, нарушения порогов, пять худших таблиц, ответственные подразделения. Без него программа теряет политическую поддержку.
Модель зрелости
Программа проходит четыре уровня:
- Уровень 1 — Реактивный. Проблемы обнаруживаются конечными пользователями. Исправления — ad-hoc.
- Уровень 2 — Наблюдаемый. На некоторых таблицах есть автотесты. Порогов нет, алармов нет.
- Уровень 3 — Управляемый. Метрики, пороги и владельцы определены для всех критичных таблиц. Ежемесячный дашборд уходит на исполнительный уровень.
- Уровень 4 — Автоматизированный. Data contracts обязательны в CI/CD. Нарушения порогов превращаются в инциденты PagerDuty / Opsgenie.
В 2026-м большинство турецких корпораций находятся на уровне 1-2. Переход на уровень 3 — не разовое усилие, а планируемая годовая программа.
Практический 90-дневный старт
Дни 1-30: определение скоупа (5-10 критичных активов), назначение владельцев, базовые измерения. Дни 30-60: автоматизация dbt + Soda, определение порогов и SLA, первый дашборд. Дни 60-90: пилот data-контракта (1-2 producer-команды), запуск ежемесячной отчётности.
К концу 90 дней организация должна заменить "данные плохие" на "у клиентской таблицы 88% точности, 94% полноты, 71% согласованности".
Три частые ошибки
Покупка одного инструмента. Soda или Great Expectations и забыли. Без людей и процессов инструмент не делает ничего.
Не назначены владельцы. "За все данные отвечает IT" — это смертный приговор программе.
Раздутый скоуп. Попытка взять 200 таблиц на первой волне. Начинайте с 5-10 критичных и расширяйте по мере зрелости.
Итог
Программа качества данных — сбалансированная комбинация технологии, governance, людей и процесса. Зрелая программа делает возможным постоянное доверие в AI, BI и регуляторной отчётности. Стоимость этой инвестиции значительно ниже стоимости одного инцидента.
