Вы получите рабочий каталог Iceberg с примерами CRUD-операций, историей снимков (time travel), рекомендациями по оптимизации и списком интеграций. Примерное время выполнения полного руководства — 2–5 часов при наличии выделенной машины с 16 ГБ ОЗУ.

Что такое Iceberg?

Apache Iceberg — это таблиечный формат для аналитических хранилищ данных, ориентированный на надёжность, транзакционность и масштабируемость. К 2026 году Iceberg версии 1.4.0 (релиз 2026) стал стандартом для крупных кластеров благодаря атомарным снимкам (snapshots), поддержке time travel, схем-эволюции и работе с форматом хранения Parquet/ORC/Avro. Iceberg отделяет метаданные от данных: метаданные хранятся в JSON/manifest-файлах, а сами данные — в файлах формата Parquet/ORC. Это позволяет выполнять быстрые инкрементальные сканы, безопасные транзакции и компактные операции rewrite/compaction.

Что вы изучите

Как настроить каталог Iceberg для Hive Metastore и S3-совместимого хранилища.
Примеры CRUD-операций через Spark SQL и командную оболочку.
Как использовать time travel для отката и аудита.
Как оптимизировать таблицы: компакция, переписывание файлов и статистики.
Сравнение с Hive по ключевым сценариям производительности и надёжности.
Список интеграций: Spark, Flink, Trino, Presto, Kafka, Delta Live Tables и CI/CD.

Требования

# Создать файл конфигурации каталога для Spark (пример: /etc/iceberg/catalogs/iceberg_catalog.properties)
# Содержимое файла:
catalog.type=hive
catalog.uri=thrift://localhost:9083
warehouse=/data/iceberg/warehouse    # или s3a://my-bucket/warehouse

# Пример запуска spark-sql с подключением Iceberg 1.4.0 (2026)
spark-sql \
 --jars /opt/iceberg/iceberg-spark-runtime-1.4.0.jar \
 --conf spark.sql.catalog.iceberg_catalog=org.apache.iceberg.spark.SparkCatalog \
 --conf spark.sql.catalog.iceberg_catalog.catalog-impl=org.apache.iceberg.hive.HiveCatalog \
 --conf spark.sql.catalog.iceberg_catalog.uri=thrift://localhost:9083 \
 --conf spark.sql.catalog.iceberg_catalog.warehouse=/data/iceberg/warehouse

Welcome to
       ____              __
      / ___|  ___  _ __ / _| ___
     | |  _  / _ \| '__| |_ / _ \
     | |_| | (_) | |  |  _|  __/
      \____|\___/|_|  |_|  \___|

Spark session available.
spark-sql> SHOW DATABASES IN iceberg_catalog;
+----------------+
| namespace      |
+----------------+
| default        |
+----------------+

-- В spark-sql (подключён catalog iceberg_catalog):
CREATE TABLE iceberg_catalog.default.events (
  event_id STRING,
  user_id STRING,
  event_ts TIMESTAMP,
  payload STRING
)
USING iceberg
PARTITIONED BY (days(event_ts))
LOCATION '/data/iceberg/warehouse/default/events';

-- Вставка данных
INSERT INTO iceberg_catalog.default.events VALUES
('e1','u1','2026-02-01 10:00:00','{"a":1}'),
('e2','u2','2026-02-01 11:00:00','{"a":2}');

-- Проверка
SELECT count(*) FROM iceberg_catalog.default.events;

+--------+
|count(1)|
+--------+
|       2|
+--------+

-- Апдейт: заменить payload для event_id='e1'
MERGE INTO iceberg_catalog.default.events t
USING (SELECT 'e1' as event_id, '{"a":10}' as payload) s
ON t.event_id = s.event_id
WHEN MATCHED THEN UPDATE SET t.payload = s.payload;

-- Удаление
DELETE FROM iceberg_catalog.default.events WHERE event_id = 'e2';

-- После MERGE и DELETE
SELECT * FROM iceberg_catalog.default.events;
+-------+------+-------------------+---------+
|event_id|user_id|event_ts          |payload  |
+-------+------+-------------------+---------+
|e1     |u1    |2026-02-01 10:00:00|{"a":10}|
+-------+------+-------------------+---------+

-- Посмотреть историю снимков (в spark-sql через SQL-расширение Iceberg)
SELECT * FROM iceberg_catalog.default.events.snapshots();

+------------+------------------------+--------------------------+
|snapshot_id |committed_at            |summary                   |
+------------+------------------------+--------------------------+
|164738291234|2026-02-01T10:00:05Z    |{"operation":"append\

Apache Iceberg: почему все переходят 2026 | KtoHto

Apache Iceberg: почему все переходят 2026

Что такое Iceberg?

Что вы изучите

Требования

Комментарии (0)

Шаг 1: настройка каталога

Шаг 2: CRUD операции

Шаг 3: time travel