Технологии распределенной обработки данных

Цели и задачи дисциплины

Целью курса является изучение студентами задач, связанных с распределенным хранением и обработкой больших данных. При изучении этого курса должны быть решены следующие задачи: изучить понятие и проблематику больших данных, способы распределенного хранения больших данных, способы распределенной обработки больших данных, хранение и обработка больших данных с помощью современных программных решений, машинное обучение на больших данных.

Краткое содержание дисциплины

Понятие больших данных. Распределенная обработка больших данных. SQL, NoSQL и NewSQL-решения. Экосистема Hadoop: HDFS, MapReduce, Pig, Apache Hive, Apache Spark и машинное обучение, Hadoop YARN, Zookeeper, Apache Kafka. Классификация NoSQL-решений: хранилища "ключ-значения", документо-ориентированные хранилища, хранение в виде семейства столбцов, графовые СУБД. Теорема CAP. Согласованность данных в базе данных. Структуры для хранения больших данных. Секционирование данных. Репликация данных.

Компетенции обучающегося, формируемые в результате освоения дисциплины

Выпускник должен обладать:

ПК-1 Способен разрабатывать системы хранения и обработки больших данных, в том числе на основе методов искусственного интеллекта