- Цели и задачи дисциплины
- Целью дисциплины является ознакомление бакалавров с основными задачами и интеллектуального анализа данных и алгоритмами их решения.
- Краткое содержание дисциплины
- Введение в дисциплину. Феномен Больших данных. Понятие интеллектуального анализа данных. Технологический цикл анализа данных. Основные задачи интеллектуального анализа данных: поиск шаблонов, классификация, кластеризация. Поиск шаблонов. Понятия транзакции, частого набора, шаблона, поддержки, достоверности. Алгоритм Apriori поиска частых наборов. Выбор полезных шаблонов на основе мер support и confidence. Классификация. Процесс классификации: обучение модели, оценка модели, применение модели. Деревья решений. Меры оценки доли примесей в узле дерева решений: индекс Джини, энтропия; алгоритмы классификации ID3, C4.5, CART. Оценка качества классификации: меры Accuracy, Precision, Recall, F1. Ансамблевая классификация: бэггинг, бустинг, случайный лес. Кластеризация. Задачи кластеризации данных и подходы к ее решению. Разделительная кластеризация: алгоритмы k-means и k-medoids. Иерархическая кластеризация: дендрограммы, агломеративный и дивизимный подход. Меры схожести кластеров: Single linkage, Complete linkage, Group average и др. Меры качества кластеризации: метод локтя, силуэтный коэффициент и др. Поиск аномалий. Понятия аномалии (выброса), шума, новизны в данных. Виды аномалий: точечные, глобальные, контекстные, смешанные. Статистические методы поиска аномалий: z-значимость, правило трех сигм, гистограммы. Поиск аномалий на основе расстояния. Поиск аномалий на основе плотности: метод вложенных циклов, метод решеток. Поиск аномалий с помощью разделительной и плотностной кластеризации. Поиск аномалий на основе классификации: метод One Class SVM, метод изолирующего леса.
- Компетенции обучающегося, формируемые в результате освоения дисциплины
- Выпускник должен обладать:
- ПК-1 Способен проводить анализ предметной области и формулировать требования к разработке программного обеспечения для решения задач профессиональной деятельности, применять современные методы и средства проектирования программного обеспечения с учетом архитектуры вычислительных систем (включая многопроцессорные вычислительные системы), использовать инструментальные и вычислительные средства при разработке алгоритмических и программных решений
- Образование
- Учебный план 02.03.02, 2022, (4.0), Фундаментальная информатика и информационные технологии
- Технологии аналитической обработки информации