DE or DIE #3

DE or DIE – митап, сделанный дата инженерами для дата инженеров.

ИТ и интернет 16+

Наша цель – собрать комьюнити людей, которые занимаются вопросами, связанными с доставкой, хранением и подготовкой данных. Сейчас много хайпа строится вокруг AI и ML, data science. Но постоянно опускается тот факт, что прежде, чем строить любую аналитику и ML-модели, нужно сначала собрать данные, предобработать их, построить на них хранилище и обеспечить пайплайнами поставки данных. Это то, чем занимаемся мы – дата инженеры. Мы считаем, что роль дата инженеров сильно недооценена, а профильных конференций и сообществ очень мало. Мы хотим исправить это положение вещей. Приходите на наш митап, будем разбираться в вопросах управления данными вместе!

Формат митапа

Ссылка на трансляцию: 

1.5 часа и две сессии на вопросы и ответы. Ссылка на трансляцию будет доступна за час до митапа.

Митап будет проходить в онлайне с трансляцией на YouTube. Вопросы можно задавать в телеграм-канале сообщества deordie_chat. Ну и непосредственно во время самой трансляции на YouTube.

19:00-21:00 (MSK).  Разбор реального проекта: E2E пайплайн для прогнозирования закупок ингредиентов в пиццериях c помощью Spark Streaming

Ксения Томак, Дарья Буланова, Михаил Кумачев, Data Engineering Team, Dodo Pizza

Иван Трусов, Solutions Architect, Databricks

Dodo Pizza совместно с Databricks сделали проект по решению задачи прогнозирования закупок ингредиентов в пиццериях. В рамках проекта был разработан набор near real-time и batch пайплайнов для сбора данных из источника, загрузки их в Delta Lake и подготовки витрин для использования в машинном обучении.

В рамках нашего выступления мы подробно разберем каждый из этапов и уделим особое внимание подводным камням при реализации проекта.

Часть 1:

  • Описание проекта и базовой инфраструктуры

  • Архитектура решения

  • Change Data Capture из MySQL в EventHubs, используя Kafka Connect и Debezium

Часть 2:

  • Data modeling с помощью DataVault 2.0. Переливка данных с помощью Spark Streaming

  • Наполнение витрин данных

  • Интеграция с ML-пайплайнами

  • CI/CD для пайплайнов данных

Стек используемых технологий:

  • Cloud provider: Azure

  • Data Source: Azure MySQL DB

  • CDC pipeline: Kafka Connect + Debezium + Azure Event Hubs

  • Processing: Spark + Spark Streaming on Databricks

  • Storage layer: Delta Lake + Azure Data Lake Storage

  • CI/CD: GitHub Actions + Databricks REST API

  • Implementation language: Python

Ссылка на трансляцию будет доступна за час до митапа.

Поделиться:

1468 дней назад
16 июля 2020 19:00–21:00

Событие пройдет онлайн

Уже есть билет
Получить ссылку

Поделиться:

Связь с организатором

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов