- Цели и задачи дисциплины
- Целью курса является изучение студентами задач, связанных с распределенным хранением и обработкой больших данных. При изучении этого курса должны быть решены следующие задачи: изучить понятие и проблематику больших данных, способы распределенного хранения больших данных, способы распределенной обработки больших данных, хранение и обработка больших данных с помощью современных программных решений, машинное обучение на больших данных.
- Краткое содержание дисциплины
- Понятие больших данных. Распределенная обработка больших данных. SQL, NoSQL и NewSQL-решения. Экосистема Hadoop: HDFS, MapReduce, Pig, Apache Hive, Apache Spark и машинное обучение, Hadoop YARN, Zookeeper, Apache Kafka. Классификация NoSQL-решений: хранилища "ключ-значения", документо-ориентированные хранилища, хранение в виде семейства столбцов, графовые СУБД. Теорема CAP. Согласованность данных в базе данных. Структуры для хранения больших данных. Секционирование данных. Репликация данных.
- Компетенции обучающегося, формируемые в результате освоения дисциплины
- Выпускник должен обладать:
- ПК-2 Способен разрабатывать системы хранения и обработки больших данных, в том числе на основе методов искусственного интеллекта
- Образование
- Учебный план
- Технологии распределенной обработки данных