Вам нужно обрабатывать терабайты данных за считанные минуты, но стандартные инструменты перестали справляться. Здесь разбирают Spark не на уровне теории, а через призму реальных задач по высокопроизводительным вычислениям.
Внутри фокус на ключевых инженерных аспектах: как устроены графы вычислений, зачем разделять задачи на job, stage и task, и как управлять памятью через настройку Garbage Collection. Вы научитесь осознанно выбирать между RDD и DataFrames, а также глубоко проработаете болезненную тему оптимизации операций shuffle.
Курс рассчитан на инженеров данных, которые уже работают с Hadoop/HDFS и хотят перейти к профессиональной эксплуатации Spark в кластерах с YARN. В итоге вы перестанете гадать, почему «зависает» job, и научитесь тюнить Spark так, чтобы он утилизировал ресурсы железа максимально эффективно.
Отзывов пока нет. Будьте первым!