Наша цель – собрать комьюнити людей, которые занимаются вопросами, связанными с доставкой, хранением и подготовкой данных. Сейчас много хайпа строится вокруг AI и ML, data science. Но постоянно опускается тот факт, что прежде, чем строить любую аналитику и ML-модели, нужно сначала собрать данные, предобработать их, построить на них хранилище и обеспечить пайплайнами поставки данных. Это то, чем занимаемся мы – дата инженеры. Мы считаем, что роль дата инженеров сильно недооценена, а профильных конференций и сообществ очень мало. Мы хотим исправить это положение вещей. Приходите на наш митап, будем разбираться в вопросах управления данными вместе!
Формат митапа
45 минут доклад + 15 минут на вопросы и обсуждение.
Между докладами перерыв 15 минут.
Митап будет проходить онлайн с трансляцией на YouTube. Вопросы можно задавать в телеграм канале сообщества deordie_chat.
Ссылку на трансляцию пришлем за час до начала мероприятия.
18:00-19:00. Использование Scala UDF в PySpark
Андрей Титов, Senior Spark Engineer, NVIDIA
В своем докладе я поделюсь своим опытом использования пользовательских функций в высокопроизводительных PySpark приложениях.
При использовании PySpark часто забывают о возможности использования UDF, написанных на Scala/Java. А ведь это отличный способ увеличить производительность вашего приложения.
К сожалению, в официальной документации приводится самый базовый вариант их применения, который имеет ряд ограничений и не раскрывает всех возможностей применения Scala/Java UDF в PySpark.
В своем докладе я расскажу, как:
19:00-19:15. Перерыв
19:15-20:15. Мой первый data lake
Дмитрий Шалин, Data Engineer, СБЕР
Если зайти в YouTube и забить data lake, получим большое количество докладов от сотрудников крупных компаний, которые имеют в своем арсенале большие деньги, широкую экспертизу, численность под реализацию end-to-end процесса работы с данными и самое главное – время.
В своем докладе я расскажу историю, как будучи сотрудником стартапа, в сжатые сроки, как и главное зачем, собирал хранилище и какие шаги позволили избежать проблемы масштабирования в будущем. Покажу по шагам (1,2,3) как уже в первую неделю, не имея глубоких знаний языка программирования, хранилищ, облачных сервисов, заложить фундамент.
Основное внимание будет уделено базе по ETL, качеству (как идеи, что это часть ETL) и основам баз данных.
Ссылку на трансляцию пришлем за час до начала мероприятия.
Если вы зарегистрировались на событие, организатор должен был прислать вам ссылку. Если этого не произошло, обязательно свяжитесь с ним.
Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.