К 2026 году граница между data warehouse и data lake практически исчезла. Технический драйвер — не отдельная технология, а гонка трёх открытых табличных форматов: Apache Iceberg, Delta Lake и Apache Hudi. Из них Iceberg за последние 18 месяцев стал де-факто стандартом: Snowflake, AWS, Google Cloud и Microsoft Fabric один за другим объявили о его официальной поддержке. Почему Iceberg так важен и что это значит для корпоративной архитектуры?
Проблема: vendor lock-in и копии данных
Классические хранилища (Snowflake, BigQuery, Redshift) используют закрытый табличный формат. Это даёт высокую производительность, но порождает две большие издержки: одни и те же данные нужно копировать, чтобы пользоваться ими на разных платформах, и выход с любой из них становится болезненным. Apache Iceberg решает это, накладывая открытый каталог метаданных поверх Parquet-файлов — данные лежат единым экземпляром в object storage (S3, ADLS, GCS), а несколько движков (Spark, Trino, Snowflake, Databricks) читают одну и ту же таблицу.
Технические обещания Iceberg
Четыре свойства, ускорившие принятие:
- Изоляция снапшотов: ACID-гарантии транзакций, schema evolution и time travel — как в полноценном хранилище.
- Скрытое партиционирование: автору запроса не нужно знать колонку партиционирования — Iceberg делает это под капотом.
- Эволюция схемы: добавление, удаление и переименование колонок безопасны и не ломают исторические чтения.
- Метаданные на манифестах: даже на триллионных таблицах метаданные читаются за секунды.
Различия между открытыми табличными форматами
- Iceberg: Apache Foundation, родом из Netflix, поддерживается во всех крупных облаках. Кандидат, нейтральный к вендору.
- Delta Lake: родом из Databricks, под Linux Foundation, но сильнее всего внутри Databricks. Хорош для высокопроизводительных сценариев.
- Hudi: родом из Uber, силён в real-time upsert-сценариях, но корпоративное принятие более ограничено.
Для новых greenfield-проектов в 2026 Iceberg стал безопасным дефолтом, поскольку и Snowflake, и Databricks поддерживают его нативно.
Практический эффект в лейкхаусе
Типичный банковский DWH (порядка 50–100 ТБ), переведённый на гибрид Iceberg + Trino + Snowflake, обычно показывает такие закономерности:
- стоимость compute Snowflake снизилась на 38% (ad-hoc-аналитика ушла в Trino);
- та же таблица переиспользована как feature store в Spark, без копирования;
- изменения схемы прошли без даунтайма;
- регуляторные обходы аудита сократились с одного дня до двух часов благодаря time travel.
Стратегия миграции: поэтапно, а не big-bang
Рекомендуемый нами поэтапный подход к миграции с Snowflake/BigQuery на Iceberg:
- Фаза 1: новые источники начинаем писать в Iceberg, существующие таблицы не трогаем.
- Фаза 2: переносим в Iceberg таблицы, тяжело читаемые внешними системами (export-heavy).
- Фаза 3: вводим в аналитический слой открытый движок (Trino или Athena).
- Фаза 4: завершаем оставшуюся миграцию после подтверждения метрик и стоимости.
