DE or DIE #4

DE or DIE – митап, сделанный дата инженерами для дата инженеров

ИТ и интернет 16+

Наша цель – собрать комьюнити людей, которые занимаются вопросами, связанными с доставкой, хранением и подготовкой данных. Сейчас много хайпа строится вокруг AI и ML, data science. Но постоянно опускается тот факт, что прежде, чем строить любую аналитику и ML-модели, нужно сначала собрать данные, предобработать их, построить на них хранилище и обеспечить пайплайнами поставки данных. Это то, чем занимаемся мы – дата инженеры. Мы считаем, что роль дата инженеров сильно недооценена, а профильных конференций и сообществ очень мало. Мы хотим исправить это положение вещей. Приходите на наш митап, будем разбираться в вопросах управления данными вместе!

Формат митапа

45 минут доклад + 15 минут на вопросы и обсуждение.

Между докладами перерыв 15 минут.

Ссылка на трансляцию: 

Митап будет проходить онлайн с трансляцией на YouTube. Вопросы можно задавать в телеграм канале сообщества deordie_chat

18:00-19:00. Своя песочница – как сделать кластер для инженера данных

Артем Селезнев, Senior Data Engineer, Сбербанк

Отличные коробочные решения, которые дата инженер использует в своей деятельности, хороши для уже отлаженного процесса и подходят для случаев, когда "не надо думать" над инфраструктурой, а надо "брать и делать". Но как сделать шаг в сторону от "черного ящика" и развернуть кластер самому?
Мы вместе совершим путешествие по обновленной Data Engineer Roadmap 2020 и подробно остановимся на новом этапе в этой карте: "кластерная инфраструктура".

В своем докладе я расскажу, как развернуть свою песочницу – кластер на основе Apache framework’ов – и как настроить их работать совместно. Но это не только про Spark и Hadoop, в докладе будут рассмотрены два дополнительных инструмента: 

  • первый – специальное приложение для упрощения администрирования и управлением кластером,
  • второй – отличный framework для реализации feature storage, чтобы в своей песочнице научиться быть полезным для аналитиков данных.

19:00-19:15. Перерыв

19:15-20:15. Data governance – что это, зачем, и с чего начать

Андрей Вихров, Главный системный аналитик, Связной

Тема data governance выглядит хайповой, но при этом сложной, дорогой и немного мистифицированной. Может сложиться впечатление, что для нее необходимы большое подразделение, дорогой софт и изучить непростые body of knowledge. 

В своем докладе я расскажу, в чем практическая суть этой функции, как минимальными усилиями начать использовать ее там, где это принесет первоочередную выгоду, а также куда потом развиваться. В докладе будет рассмотрен опыт построения DG в ОМК и Связном, а также наиболее запомнившиеся мне российские и мировые практики. 

Основное внимание будет уделено построению бизнес-глоссария, а также базовым приемам обеспечения качества данных.

Ссылка на трансляцию: 

Поделиться:

1303 дня назад
1 октября 2020 18:00–20:30

Событие пройдет онлайн

Уже есть билет
Получить ссылку

Поделиться:

Связь с организатором

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов