Технологии аналитической обработки информации

Цели и задачи дисциплины

Целью дисциплины является ознакомление студентов с основными задачами оперативного и интеллектуального анализа данных и алгоритмами их решения.

Краткое содержание дисциплины

1. Введение в дисциплину. Феномен Больших данных. Примеры предметных областей и задач, требующих аналитической обработки больших объемов данных. Понятия оперативного и интеллектуального анализа данных. Понятие хранилища данных. Технологический цикл аналитической обработки данных: интеграция источников данных, предварительная обработка данных, построение хранилища данных, интерпретация данных. Основные задачи интеллектуального анализа данных: поиск ассоциативных правил, классификация, кластеризация. 2. Хранилища данных и оперативный анализ данных. Понятие хранилища данных: предметная ориентированность, поддержка хронологии, интегрированность, неизменчивость. Отличия хранилищ данных и баз данных. Очистка данных: обработка отсутствующих и зашумленных данных. Интеграция, трансформация и редукция данных. Многомерная модель данных: измерения, меры, куб данных, OLAP-куб. Проектирование хранилищ данных: таблицы измерений, таблица фактов, схемы "звезда", "снежинка", "созвездие". Иерархии в измерениях. Технологический цикл построения хранилища данных, процессы ETL (Extract-Transform-Load). Понятие OLAP-куба. Обзор алгоритмов вычисления OLAP-куба: понятия полного куба, куба-айсберга, замкнутого куба и оболочки куба; методы многомерной агрегации и нисходящего вычисления подкубов. OLAP-операции: срез, вращение, агрегация, детализация. Расширения SQL ROLLUP BY и CUBE BY для вычисления OLAP-куба. Обзор современных систем создания и поддержки хранилищ данных. 3. Поиск ассоциативных правил. Понятия частого набора и ассоциативного правила. Алгоритм Apriori поиска частых наборов. Отбор ассоциативных правил на основе их поддержки и достоверности. 4. Классификация. Процесс классификации: обучение модели, оценка модели, применение модели. Деревья решений. Подходы к построению деревьев решений: индекс Джини, энтропия. Меры качества классификации: аккуратность, точность, полнота, F-мера. Методы ансамблевой классификации: бэггинг, бустинг, случайный лес. 5. Кластеризация. Разновидности подходов к кластеризации. Вычисление расстояния между кластеризуемыми объектами для различных видов их атрибутов (бинарные, интервальные, номинальные, порядковые и др.). Алгоритмы k-means и k-medoids. Плотностная кластеризация. Иерархическая кластеризация: дендрограммы, меры схожести кластеров (Single linkage, Complete linkage, Group average). Меры качества кластеризации: метод локтя, силуэтный коэффициент и др. Применение кластеризации для обнаружения аномалий в данных.

Компетенции обучающегося, формируемые в результате освоения дисциплины

Выпускник должен обладать:

ПК-5 (ПК-4 модели) Способен разрабатывать и применять методы машинного обучения для решения задач
ПК-7 (ПК-8 модели) Способен разрабатывать системы анализа больших данных
ПК-11 (ПК-5 модели) Способен использовать инструментальные средства для решения задач машинного обучения