- Цели и задачи дисциплины
- Целью дисциплины является ознакомлением студентов с основами технологий оперативной и интеллектуальной аналитической обработки данных. Основными задачами изучения дисциплины являются теоретическое и практическое освоение базовых понятий, относящихся к технологиям анализа данных: хранилище данных, оперативный и интеллектуальный анализа данных и основные алгоритмы интеллектуального анализа данных.
- Краткое содержание дисциплины
- Понятия OLTP (Online Transaction Processing), OLAP (Online Analytical Processing) Data Warehouse и Data Mining. Технологический цикл аналитической обработки данных: интеграция источников данных, предварительная обработка данных, построение хранилища данных, оперативный и интеллектуальный анализ данных. Примеры предметных областей и задач, в которых требуется оперативный и интеллектуальный анализ данных. Проблема интеграции данных и различные подходы к ее решению: федеративные базы данных, медиаторы, хранилище данных. Проектирование хранилищ данных: схемы "звезда", "снежинка", "созвездие". Реализация хранилищ данных: ETL-процесс (extract, transform, load – извлечение, преобразование, загрузка данных), очистка данных. Многомерная модель данных: измерения, меры, куб данных, OLAP-куб. Операции над OLAP-кубами (срез, вращение, консолидация, детализация). Вычисление OLAP-куба с помощью расширения SQL (выражения ROLLUP BY и CUBE BY). Базовые техники вычисления OLAP-куба. Обзор инструментальных средств разработки OLAP-приложений от современных производителей корпоративных СУБД. Основные задачи Data Mining: классификация, поиск ассоциативных правил, кластеризация. Обзор алгоритмов решения основных задач Data Mining: алгоритмы 1-Rule, ID3, C4.5, алгоритм покрытия для решения задач классификации, алгоритм Apriori для решения задачи поиска ассоциативных правил, алгоритм k-means для решения задачи классификации. Обзор инструментальных средств разработки приложений Data Mining от современных производителей корпоративных СУБД. Мотивация и цели предварительной обработки данных. Способы измерения тенденции (среднее, медиана, мода и др.) и дисперсии (отклонение, перцентили и др.) данных. Методы обработки отсутствующих данных. Методы обработки зашумленных данных. Нормализация значений данных. Редукция данных.
- Компетенции обучающегося, формируемые в результате освоения дисциплины
- Выпускник должен обладать:
- ОПК-1 Способен находить, формулировать и решать актуальные проблемы прикладной математики, фундаментальной информатики и информационных технологий
- ОПК-2 Способен применять компьютерные/суперкомпьютерные методы, современное программное обеспечение (в том числе отечественного производства) для решения задач профессиональной деятельности
- ОПК-3 Способен проводить анализ математических моделей, создавать инновационные методы решения прикладных задач профессиональной деятельности в области информатики и математического моделирования
- Образование
- Учебный план 02.04.02, 2021, (2.0), Фундаментальная информатика и информационные технологии
- Интеллектуальный анализ данных