DE or DIE #3

DE or DIE – митап, сделанный дата инженерами для дата инженеров.

ИТ и интернет 16+

Наша цель – собрать комьюнити людей, которые занимаются вопросами, связанными с доставкой, хранением и подготовкой данных. Сейчас много хайпа строится вокруг AI и ML, data science. Но постоянно опускается тот факт, что прежде, чем строить любую аналитику и ML-модели, нужно сначала собрать данные, предобработать их, построить на них хранилище и обеспечить пайплайнами поставки данных. Это то, чем занимаемся мы – дата инженеры. Мы считаем, что роль дата инженеров сильно недооценена, а профильных конференций и сообществ очень мало. Мы хотим исправить это положение вещей. Приходите на наш митап, будем разбираться в вопросах управления данными вместе!

Формат митапа

Ссылка на трансляцию:

1.5 часа и две сессии на вопросы и ответы. Ссылка на трансляцию будет доступна за час до митапа.

Митап будет проходить в онлайне с трансляцией на YouTube. Вопросы можно задавать в телеграм-канале сообщества deordie_chat. Ну и непосредственно во время самой трансляции на YouTube.

19:00-21:00 (MSK). Разбор реального проекта: E2E пайплайн для прогнозирования закупок ингредиентов в пиццериях c помощью Spark Streaming

Ксения Томак, Дарья Буланова, Михаил Кумачев, Data Engineering Team, Dodo Pizza

Иван Трусов, Solutions Architect, Databricks

Dodo Pizza совместно с Databricks сделали проект по решению задачи прогнозирования закупок ингредиентов в пиццериях. В рамках проекта был разработан набор near real-time и batch пайплайнов для сбора данных из источника, загрузки их в Delta Lake и подготовки витрин для использования в машинном обучении.

В рамках нашего выступления мы подробно разберем каждый из этапов и уделим особое внимание подводным камням при реализации проекта.

Часть 1:

Описание проекта и базовой инфраструктуры
Архитектура решения
Change Data Capture из MySQL в EventHubs, используя Kafka Connect и Debezium

Часть 2:

Data modeling с помощью DataVault 2.0. Переливка данных с помощью Spark Streaming
Наполнение витрин данных
Интеграция с ML-пайплайнами
CI/CD для пайплайнов данных

Стек используемых технологий:

Cloud provider: Azure
Data Source: Azure MySQL DB
CDC pipeline: Kafka Connect + Debezium + Azure Event Hubs
Processing: Spark + Spark Streaming on Databricks
Storage layer: Delta Lake + Azure Data Lake Storage
CI/CD: GitHub Actions + Databricks REST API
Implementation language: Python

Ссылка на трансляцию будет доступна за час до митапа.

Партнеры

Dodo Pizza Engineering

New Professions Lab

Регистрация

1373 дня назад
16 июля 2020 19:00–21:00

Событие пройдет онлайн

Уже есть билет
Получить ссылку

DE or DIE – митап, сделанный дата инженерами для дата инженеров.

Получить ссылку на трансляцию

Связь с организатором

Подпишитесь на рассылку организатора

Получение ссылок для участия

Возврат билета