DE or DIE #4

DE or DIE – митап, сделанный дата инженерами для дата инженеров

ИТ и интернет 16+

Наша цель – собрать комьюнити людей, которые занимаются вопросами, связанными с доставкой, хранением и подготовкой данных. Сейчас много хайпа строится вокруг AI и ML, data science. Но постоянно опускается тот факт, что прежде, чем строить любую аналитику и ML-модели, нужно сначала собрать данные, предобработать их, построить на них хранилище и обеспечить пайплайнами поставки данных. Это то, чем занимаемся мы – дата инженеры. Мы считаем, что роль дата инженеров сильно недооценена, а профильных конференций и сообществ очень мало. Мы хотим исправить это положение вещей. Приходите на наш митап, будем разбираться в вопросах управления данными вместе!

Формат митапа

45 минут доклад + 15 минут на вопросы и обсуждение.

Между докладами перерыв 15 минут.

Ссылка на трансляцию:

Митап будет проходить онлайн с трансляцией на YouTube. Вопросы можно задавать в телеграм канале сообщества deordie_chat.

18:00-19:00. Своя песочница – как сделать кластер для инженера данных

Артем Селезнев, Senior Data Engineer, Сбербанк

Отличные коробочные решения, которые дата инженер использует в своей деятельности, хороши для уже отлаженного процесса и подходят для случаев, когда "не надо думать" над инфраструктурой, а надо "брать и делать". Но как сделать шаг в сторону от "черного ящика" и развернуть кластер самому?
Мы вместе совершим путешествие по обновленной Data Engineer Roadmap 2020 и подробно остановимся на новом этапе в этой карте: "кластерная инфраструктура".

В своем докладе я расскажу, как развернуть свою песочницу – кластер на основе Apache framework’ов – и как настроить их работать совместно. Но это не только про Spark и Hadoop, в докладе будут рассмотрены два дополнительных инструмента:

первый – специальное приложение для упрощения администрирования и управлением кластером,
второй – отличный framework для реализации feature storage, чтобы в своей песочнице научиться быть полезным для аналитиков данных.

19:00-19:15. Перерыв

19:15-20:15. Data governance – что это, зачем, и с чего начать

Андрей Вихров, Главный системный аналитик, Связной

Тема data governance выглядит хайповой, но при этом сложной, дорогой и немного мистифицированной. Может сложиться впечатление, что для нее необходимы большое подразделение, дорогой софт и изучить непростые body of knowledge.

В своем докладе я расскажу, в чем практическая суть этой функции, как минимальными усилиями начать использовать ее там, где это принесет первоочередную выгоду, а также куда потом развиваться. В докладе будет рассмотрен опыт построения DG в ОМК и Связном, а также наиболее запомнившиеся мне российские и мировые практики.

Основное внимание будет уделено построению бизнес-глоссария, а также базовым приемам обеспечения качества данных.

Ссылка на трансляцию:

Партнеры

Dodo Pizza Engineering

New Professions Lab

Регистрация

1303 дня назад
1 октября 2020 18:00–20:30

Событие пройдет онлайн

Уже есть билет
Получить ссылку

DE or DIE – митап, сделанный дата инженерами для дата инженеров

Получить ссылку на трансляцию

Связь с организатором

Подпишитесь на рассылку организатора

Получение ссылок для участия

Возврат билета