Наша цель – собрать комьюнити людей, которые занимаются вопросами, связанными с доставкой, хранением и подготовкой данных. Сейчас много хайпа строится вокруг AI и ML, data science. Но постоянно опускается тот факт, что прежде, чем строить любую аналитику и ML-модели, нужно сначала собрать данные, предобработать их, построить на них хранилище и обеспечить пайплайнами поставки данных. Это то, чем занимаемся мы – дата инженеры. Мы считаем, что роль дата инженеров сильно недооценена, а профильных конференций и сообществ очень мало. Мы хотим исправить это положение вещей. Приходите на наш митап, будем разбираться в вопросах управления данными вместе!
Формат митапа
Ссылка на трансляцию:
1.5 часа и две сессии на вопросы и ответы. Ссылка на трансляцию будет доступна за час до митапа.
Митап будет проходить в онлайне с трансляцией на YouTube. Вопросы можно задавать в телеграм-канале сообщества deordie_chat. Ну и непосредственно во время самой трансляции на YouTube.
19:00-21:00 (MSK). Разбор реального проекта: E2E пайплайн для прогнозирования закупок ингредиентов в пиццериях c помощью Spark Streaming
Ксения Томак, Дарья Буланова, Михаил Кумачев, Data Engineering Team, Dodo Pizza
Иван Трусов, Solutions Architect, Databricks
Dodo Pizza совместно с Databricks сделали проект по решению задачи прогнозирования закупок ингредиентов в пиццериях. В рамках проекта был разработан набор near real-time и batch пайплайнов для сбора данных из источника, загрузки их в Delta Lake и подготовки витрин для использования в машинном обучении.
В рамках нашего выступления мы подробно разберем каждый из этапов и уделим особое внимание подводным камням при реализации проекта.
Часть 1:
Описание проекта и базовой инфраструктуры
Архитектура решения
Change Data Capture из MySQL в EventHubs, используя Kafka Connect и Debezium
Часть 2:
Data modeling с помощью DataVault 2.0. Переливка данных с помощью Spark Streaming
Наполнение витрин данных
Интеграция с ML-пайплайнами
CI/CD для пайплайнов данных
Стек используемых технологий:
Cloud provider: Azure
Data Source: Azure MySQL DB
CDC pipeline: Kafka Connect + Debezium + Azure Event Hubs
Processing: Spark + Spark Streaming on Databricks
Storage layer: Delta Lake + Azure Data Lake Storage
CI/CD: GitHub Actions + Databricks REST API
Implementation language: Python
Ссылка на трансляцию будет доступна за час до митапа.
Если вы зарегистрировались на событие, организатор должен был прислать вам ссылку. Если этого не произошло, обязательно свяжитесь с ним.
Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.