DE or DIE #5

DE or DIE – митап, сделанный дата инженерами для дата инженеров

ИТ и интернет 16+

Наша цель – собрать комьюнити людей, которые занимаются вопросами, связанными с доставкой, хранением и подготовкой данных. Сейчас много хайпа строится вокруг AI и ML, data science. Но постоянно опускается тот факт, что прежде, чем строить любую аналитику и ML-модели, нужно сначала собрать данные, предобработать их, построить на них хранилище и обеспечить пайплайнами поставки данных. Это то, чем занимаемся мы – дата инженеры. Мы считаем, что роль дата инженеров сильно недооценена, а профильных конференций и сообществ очень мало. Мы хотим исправить это положение вещей. Приходите на наш митап, будем разбираться в вопросах управления данными вместе!

Формат митапа

45 минут доклад + 15 минут на вопросы и обсуждение.

Между докладами перерыв 15 минут.

Митап будет проходить онлайн с трансляцией на YouTube. Вопросы можно задавать в телеграм канале сообщества deordie_chat

Ссылку на трансляцию пришлем за час до начала мероприятия.

18:00-19:00. Использование Scala UDF в PySpark

Андрей Титов, Senior Spark Engineer, NVIDIA

В своем докладе я поделюсь своим опытом использования пользовательских функций в высокопроизводительных PySpark приложениях.

При использовании PySpark часто забывают о возможности использования UDF, написанных на Scala/Java. А ведь это отличный способ увеличить производительность вашего приложения.

К сожалению, в официальной документации приводится самый базовый вариант их применения, который  имеет ряд ограничений и не раскрывает всех возможностей применения Scala/Java UDF в PySpark.

В своем докладе я расскажу, как:

  • заставить PySpark автоматически выводить тип данных, возвращаемых в UDF;
  • создать pyspark.sql.Column на базе UDF вместо использования spark.sql(…);
  • использовать Singleton Pattern для сохранения данных между вызовами функций и работы с внешними источниками из UDF;
  • избежать повторного вызова UDF на одних и тех же данных;
  • настроить логирование с помощью встроенного log4j.

19:00-19:15. Перерыв

19:15-20:15. Мой первый data lake

Дмитрий Шалин, Data Engineer, СБЕР
Если зайти в YouTube и забить data lake, получим большое количество докладов от сотрудников крупных компаний, которые имеют в своем арсенале большие деньги, широкую экспертизу, численность под реализацию end-to-end процесса работы с данными и самое главное – время.

В своем докладе я расскажу историю, как будучи сотрудником стартапа, в сжатые сроки, как и главное зачем, собирал хранилище и какие шаги позволили избежать проблемы масштабирования в будущем. Покажу по шагам (1,2,3) как уже в первую неделю, не имея глубоких знаний языка программирования, хранилищ, облачных сервисов, заложить фундамент.

Основное внимание будет уделено базе по ETL, качеству (как идеи, что это часть ETL) и основам баз данных. 

Ссылку на трансляцию пришлем за час до начала мероприятия.

Поделиться:

1190 дней назад
24 декабря 2020 18:00–20:30

Событие пройдет онлайн

Уже есть билет
Получить ссылку

Поделиться:

Связь с организатором

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов