Анализ данных объемом в терабайты требует понимания не одной программы, а целой экосистемы распределенных систем. Здесь показывают, как объединить Hadoop, Spark, Kafka и NoSQL-базы в единую рабочую архитектуру, чтобы решать реальные бизнес-задачи.
Внутри разбирается установка и настройка Hadoop через Hortonworks/Ambari, написание сценариев обработки через Pig и Spark, а также интеграция потоковых данных с помощью Flink и Storm. Вы научитесь выбирать подходящую технологию хранения под конкретную задачу: от реляционных данных в Hive до неструктурированных в Cassandra или MongoDB.
Курс рассчитан на специалистов с базовым опытом программирования (Python или Scala) и пониманием командной строки Linux. Вы освоите проектирование распределенных систем и сможете управлять кластерами с помощью YARN, Mesos и Zookeeper.
Отзывов пока нет. Будьте первым!