Открыто

Apache Iceberg для Data Engineer [Stepik] [Александр Озерцов]

Тема в разделе "Курсы по программированию", создана пользователем Sponge, 10 апр 2026 в 08:53.

Цена: 4 980р-90%
Взнос: 490р

Основной список: 3 участников

  1. 10 апр 2026 в 08:53
    #1
    Sponge
    Sponge ЧКЧлен клуба

    Складчина: Apache Iceberg для Data Engineer [Stepik] [Александр Озерцов]

    Без имени.jpg

    Данный курс — погружение в технологию, которая изменила правила игры в мире Big Data. Если раньше работа с данными в Data Lake напоминала хаос из тысяч файлов и непредсказуемых схем, то с Iceberg мы строим полноценное хранилище с надежностью классических баз данных прямо поверх вашего S3 или HDFS. Забудьте про битые файлы в S3 и медленные запросы в Hive. Пришло время строить архитектуру Lakehouse, которая сочетает в себе гибкость Data Lake и мощь классических SQL-баз.

    Чему вы научитесь
    • Развертывать и настраивать среду: Вы научитесь поднимать инфраструктуру для работы с Iceberg, настраивать каталоги и интегрировать их с вычислительными движками.
    • Проектировать архитектуру таблиц: Вы поймете внутреннее устройство формата (Metadata, Snapshots, Manifests) и сможете объяснять, как Iceberg обеспечивает атомарность и изоляцию транзакций.
    • Управлять транзакциями и версиями: Вы научитесь использовать Time Travel для запросов к историческим данным и выполнять Rollback, чтобы мгновенно восстанавливать таблицы после ошибок в коде.
    • Эволюционировать схемы без боли: Вы освоите Schema Evolution (добавление/удаление колонок по ID) и Partition Evolution, научившись менять логику партиционирования данных без полной перезаписи таблиц.
    • Применять стратегии обновления данных: Вы разберетесь в разнице между Copy-on-Write и Merge-on-Read и сможете выбирать оптимальный режим под конкретные бизнес-задачи.
    • Работать с данными как с кодом (Branching): Вы освоите продвинутую модель веток (Branching & Tagging), научитесь реализовывать паттерн WAP (Write-Audit-Publish) для проверки качества данных перед их публикацией в продакшен.
    • Снижать стоимость хранения: Вы научитесь управлять жизненным циклом данных, настраивать очистку старых снимков и манифестов, оптимизируя расходы на облачное хранилище (S3/GCS).
    О курсе

    Всем привет! Меня зовут Александр Озерцов, и я рад приветствовать вас на курсе «Apache Iceberg для Data Engineer».
    Этот курс — погружение в технологию, которая изменила правила игры в мире Big Data. Если раньше работа с данными в Data Lake напоминала хаос из тысяч файлов и непредсказуемых схем, то с Iceberg мы строим полноценное Lakehouse хранилище с надежностью классических баз данных прямо поверх вашего S3 или HDFS.

    В рамках курса мы не просто разберем теорию, а пройдем путь от настройки окружения до продвинутого управления данными. Мы изучим:
    • Архитектуру и транзакции: поймем, как работают манифесты и почему ваши данные больше никогда не «развалятся» при одновременной записи.
    • Гибкие схемы: научимся менять структуру таблиц и партиционирование без перезаписи петабайт данных.
    • Оптимизации: разберем стратегии удаления старых данных, различные подходы к ведению таблиц, а также Deletion Vectors.
    • Branch model: освоим работу с ветками данных (WAP — Write-Audit-Publish), чтобы тестировать изменения в изоляции, как в Git.
    Для кого этот курс
    Этот курс идеально подойдет специалистам, которые устали от ограничений классического Hive-подхода и готовы перевести свои данные на новый уровень управления. Несмотря на то, что в курсе практика ведется на Apache Spark, я намеренно использовал преимущественно SQL синтаксис, чтобы курс был понятен как Data engineer, так и Data аналитикам.

    Начальные требования

    Что нужно знать и иметь перед стартом:
    • SQL (базовый/средний уровень): свободное владение SELECT, JOIN, GROUP BY и понимание DDL-операций.
    • Основы Spark или Python: умение прочитать данные и запустить простой скрипт/нотбук.
    • Базовое понимание Data Lake: если вы знаете, чем папка в S3/HDFS отличается от таблицы в базе данных, вам будет проще.
    • Docker: умение запустить контейнер через docker-compose.
    Как проходит обучение

    Курс разбит на несколько тематических глав, каждая из которых построена по принципу «от боли к решению»:
    1. Разбор проблемы: Мы начинаем с изучения реальных сценариев, где классические подходы (вроде Hive) дают сбой. Будь то конфликты при записи, медленный поиск данных или «рассыпающаяся» схема таблицы.

    2. Теоретический блок: Разбираем внутреннюю механику Iceberg — как именно он спроектирован, чтобы этих проблем не возникало.

    3. Практический практикум: Переходим в консоль и на реальных примерах в Spark смотрим, как Iceberg элегантно решает задачу в коде.
    Программа курса

    1. Введение

    От DWH до LakeHouse pt1
    От DWH до LakeHouse pt2
    Принципы Iceberg​
    2. Настройка окружения

    Minio
    PySpark notebook
    Rest Catalog​
    3. Архитектура Apashe Iceberg

    Общее устройство таблицы
    Time travel​
    4. Транзакции

    Транзакции Iceberg​
    5. Схема данных

    Схема таблицы
    Партиции​
    6. Оптимизация таблиц

    CoW vs MoR
    Слой данных
    Слой метаданных​
    7. Branch model

    Основы
    WAP pattern​

    Цена 4980 руб.
    Скрытая ссылка
     
    Последнее редактирование модератором: 12 апр 2026 в 17:07
    1 человеку нравится это.
  2. Последние события

    1. ssokkoll
      ssokkoll участвует в складчине.
      10 апр 2026 в 21:56
    2. Money Maker LTD
      Money Maker LTD участвует в складчине.
      10 апр 2026 в 16:54
    3. CaBa_7
      CaBa_7 участвует в складчине.
      10 апр 2026 в 12:07
    4. skladchik.com
      Sponge организатор складчины.
      10 апр 2026 в 08:53

    Последние важные события

    1. skladchik.com
      Sponge организатор складчины.
      10 апр 2026 в 08:53