Доступно

Data Engineering Fast‑Track: Kafka → Airflow → Spark [Stepik] [Алексей Малышкин]

Тема в разделе "Курсы по программированию", создана пользователем Топикстартер, 2 окт 2025.

Цена: 8 990р-87%
Взнос: 1 164р
100%

Основной список: 19 участников

Резервный список: 2 участников

Статус обсуждения:
Комментирование ограничено.
  1. 2 окт 2025
    #1
    Топикстартер
    Топикстартер ЧКЧлен клуба

    Складчина: Data Engineering Fast‑Track: Kafka → Airflow → Spark [Stepik] [Алексей Малышкин]

    2025-10-05_022240.png

    Практический fast-track по data engineering: за 4–6 недель собираем рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow. Разберём batch и streaming, окна и watermark, схемы и контракты. Мини‑проекты, Docker Compose, шаблоны DAG и пайплайнов.
    Курс подойдёт инженерам, аналитикам и тем, кто хочет освоить современные пайплайны данных с уверенным Python.

    Чему вы научитесь
    • Проектировать конвейер данных Kafka → Spark → Lakehouse под управлением Airflow.
    • Поднимать локальное окружение через Docker Compose и воспроизводимо деплоить пайплайны.
    • Делать batch и streaming в Spark, настраивать окна и watermark.
    • Читать/писать данные в Parquet и табличные форматы Delta/Iceberg, избегать «small files».
    • Настраивать DAG: расписания, retries, SLA, catchup, datasets.
    • Подключать источники/приёмники через Kafka Connect/Schema Registry, понимать EOS/idempotency.
    • Писать базовые тесты качества данных (freshness/completeness) и алерты по свежести.
    • Выполнять backfill и разруливать инциденты (сломалась схема, отставание потребителей).
    О курсе
    Этот курс — быстрый и практичный вход в инженерию данных. Вместо длинной теории вы сразу собираете рабочий конвейер: источники шлют события в Kafka, Spark их очищает и агрегирует (batch и streaming), результаты складываются в Parquet/Delta/Iceberg, а Airflow следит за расписанием, зависимостями и SLA.
    Мы разбираем, как выбирать ключи и партиции в Kafka, как настроить окна и watermark в стриминге, как не утонуть в shuffle и перекосе ключей в Spark, и как избежать «мелких файлов» в озере. В конце у вас будет шаблон проекта: Docker-компоуз, минимальный DAG, стрим из Kafka в таблицу, проверки свежести и сценарий backfill.

    Формат: короткая теория → пошаговая инструкция → мини-практика. Всё можно повторить локально: репозиторий с compose-файлами и кодом прилагается.

    Для кого этот курс
    • Специалисты, стремящиеся перейти в Data Engineering через практику: backend-разработчики, аналитики, DevOps, BI.
    • ML/DS-инженеры, которым важно надёжно поставлять и перерабатывать данные в проде.
    • Тимлиды и архитекторы, проектирующие пайплайны данных, стриминг и Lakehouse.
    • Мотивированные обучающиеся с опытом Python и интересом к построению дата-инфраструктуры.
    Программа курса
    Введение в Data Engineering
    1. Введение в курс
    2. Роль инженера данных
    3. Обзор инструментов: Kafka, Airflow, Spark
    4. Среда разработки и инструменты
    Apache Kafka — основы
    1. Архитектура и ключевые понятия Kafka
    2. Развёртывание и конфигурация Kafka
    3. Управление топиками и партициями
    4. Продюсеры и консюмеры
    Apache Kafka — продвинутые темы
    1. Модели доставки и группы консюмеров
    2. Streams API
    3. Connect API
    4. Тюнинг и масштабирование Kafka
    Apache Airflow — основы
    1. Концепция DAG и организация кодовой базы
    2. Операторы и сенсоры
    3. Планирование и параметры DAG
    4. Переменные, подключения и XCom
    Apache Airflow — продвинутые возможности
    1. Управление зависимостями и надёжность
    2. Пользовательские операторы, сенсоры и плагины в Airflow
    3. Интеграция Airflow с внешними сервисами
    4. Мониторинг, интерфейс Airflow и best practices
    Apache Spark — основы
    1. Архитектура Apache Spark и RDD
    2. Spark SQL, DataFrame и Dataset
    3. Join’ы и перекос данных: производительность без магии
    4. Lakehouse с Delta/Iceberg: upsert, compaction, time-travel
    Apache Spark — потоковая обработка и интеграция с Kafk
    1. Введение в Structured Streaming
    2. Чтение и запись данных из Kafka
    3. Оконные операции и управление временем
    4. Stateful-операции и stream-static join
    Проектный модуль: end‑to‑end пайплайн
    1. Итоговый проект: построение пайплайна
    Преподаватель: Алексей Малышкин
    Аналитик-разработчик с опытом работы в крупных компаниях. Победитель олимпиад по математике, программированию и анализу данных.

    Что вы получаете
    • Рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow, который разворачивается из Docker Compose
    • Репозиторий курса: docker-compose, примеры кода, готовые DAG, конфиги Kafka/Schema Registry/Kafka Connect
    • Мини-проект в портфолио: поток из Kafka в Delta/Iceberg + batch-пересчёт (backfill) + SLA/алерты
    • Чек-листы продакшена: ключи/партиции, окна и watermark, small files/компакции, мониторинг lag и задержек
    • Шаблоны: Airflow-DAG для ETL/ELT, Spark-jobs (batch/stream), базовые проверки качества данных (freshness/completeness)
    • Шпаргалки и схемы по Kafka, Airflow, Spark и табличным форматам (Delta/Iceberg)
    • Задачи и самопроверки двух уровней сложности (Starter/Pro)
    • Подготовительный мини-модуль для самоучек: краткий recap Python/SQL/Git/Bash/Docker (4–6 часов)
    • Пошаговые инструкции с разбором типичных ошибок и анти-паттернов
    • Оперативные ответы в комментариях к курсу
    • Сертификат по завершении
    Цена: 5990 руб.
    Скрытая ссылка
     
    Последнее редактирование модератором: 4 окт 2025
    1 человеку нравится это.
  2. Последние события

    1. skladchik.com
      Складчина доступна.
      30 ноя 2025
    2. b0dya
      b0dya участвует в складчине.
      26 ноя 2025
    3. Soloft
      Soloft участвует в складчине.
      22 ноя 2025
    4. skladchik.com
      Взнос в складчине составляет 582р.
      22 ноя 2025

    Последние важные события

    1. skladchik.com
      Складчина доступна.
      30 ноя 2025
    2. skladchik.com
      Взнос в складчине составляет 582р.
      22 ноя 2025
    3. skladchik.com
      Складчина активна.
      22 ноя 2025
    4. skladchik.com
      Сбор взносов начинается 22.11.2025.
      20 ноя 2025
  3. Обсуждение
  4. 20 ноя 2025
    #2
    rickfuld
    rickfuld ДолжникДолжник
    Обратите внимание, пожалуйста,
    6 742,50 ₽
    При оплате до 21 ноября в 00:00
     
    1 человеку нравится это.
Статус обсуждения:
Комментирование ограничено.