Технологии распределенной обработки данных

Цели и задачи дисциплины
Целью курса является изучение студентами задач, связанных с распределенным хранением и обработкой больших данных. При изучении этого курса должны быть решены следующие задачи: изучить понятие и проблематику больших данных, способы распределенного хранения больших данных, способы распределенной обработки больших данных, хранение и обработка больших данных с помощью современных программных решений, машинное обучение на больших данных.
Краткое содержание дисциплины
Понятие больших данных. Распределенная обработка больших данных. SQL, NoSQL и NewSQL-решения. Экосистема Hadoop: HDFS, MapReduce, Pig, Apache Hive, Apache Spark и машинное обучение, Hadoop YARN, Zookeeper, Apache Kafka. Классификация NoSQL-решений: хранилища "ключ-значения", документо-ориентированные хранилища, хранение в виде семейства столбцов, графовые СУБД. Теорема CAP. Согласованность данных в базе данных. Структуры для хранения больших данных. Секционирование данных. Репликация данных.
Компетенции обучающегося, формируемые в результате освоения дисциплины
Выпускник должен обладать:
  • ПК-2 Способен разрабатывать системы хранения и обработки больших данных, в том числе на основе методов искусственного интеллекта
Вы нашли ошибку в тексте:
Просто нажмите кнопку «Сообщить об ошибке» — этого достаточно. Также вы можете добавить комментарий.