- Цели и задачи дисциплины
- Цель дисциплины заключается в формировании у студентов глубоких знаний и практических навыков, необходимых для сбора, предобработки и предварительного анализа данных и эффективного применения статистических методов при подготовке датасетов в различных сферах. Дисциплина направлена на развитие системного и критического мышления, способности к декомпозиции сложных задач и качественной подготовке нестандартных наборов данных. Задачи дисциплины: 1) углубленное изучение этапов аналитического проекта, от формулировки исследовательских вопросов до оценки результатов, а также освоение методов сбора и систематизации данных; 2) применение методов проверки статистической значимости и методов предобработки данных для машинного обучения, включая методы работы с аномальными значениями, а также трансформации данных, в том числе нормализации и стандартизации; 3) изучение подходов к синтетическим табличным, текстовым, графическим, видео и аудио данным, их генерации и анонимизации, обработке и работе с категориями переменных; 4) развитие целостного представления о современных процедурах и инструментах анализа данных и навыков экспертизы данных.
- Краткое содержание дисциплины
- Задачи аналитика данных. Уточнение и декомпозиция исследовательских задач. Стадии проекта. Методы сбора и систематизации фактов. Модель. Обучающая, валидационная и тестовая выборки. Генеральная совокупность. Мощность и размер выборки. Объект и признак. Разведочный анализ данных, анализ тенденций. Причины ошибок в данных. Системное и критическое мышление. Элементы структурированных данных. Оценки центрального положения и вариабельности. Обследование распределения данных. Обследование двоичных и категориальных данных. Выбор признаков. Дискретизация. Корреляция. Исследование двух и более переменных (многофакторный анализ). Проверка значимости. A/B тестирование. Проверка статистических гипотез. Повторный отбор. Статистическая значимость и p-значения. Проверка на основе t-статистики. Множественное тестирование. Степени свободы. ANOVA. Проверка на основе хи-квадрат. Мощность и размер выборки. Методы предобработки данных для машинного обучения: выявление и обработка пропусков. Конверсия. Куки. Методы поиска и удаления дубликатов. Декомпозиция таблиц. Категоризация по числовым диапазонам. Категоризация на основе нескольких значений в строке. Разреженные, отсутствующие и неточные данные. Добыча сложных и истинных сэмплов. Проверка чувствительности. Преобразование данных: нормализация, стандартизация, методы работы с категориальными переменными (одноразрядное кодирование, создание новых признаков, ранжирование). Конвейер преобразований. Обработка аномальных значений. Удаление выбросов. Замена значений на среднее или медианное. Корректировка значений на основе правил бизнеса. Модулярная предобработка. Функциональная предобработка. Позиционная предобработка. Методы сбора и обработки данных из сети Интернет. Веб-скрапинг, API, базы данных. Генерация синтетических данных. Аугментация. Рандомизаторы. Метод Монте-Карло. Метод главных компонент (применение). Генерация с помощью нейронных сетей (вариационные автоэнкодеры, генеративно-состязательные модели, авторегрессионные модели). Частичные и полные синтетические данные. Генерация табличных данных. Генерация персональных данных, анонимизация. Маркирования, псевдомаркировка. Предварительная обработка текстов. Удаление шума и несоответствий. Нормализация, токенизация, удаление стоп-слов, лемматизация и стемминг, векторизация. Использование библиотек NLTK, TextBlob и CoreNLP. Шкалирование и категориальные переменные. Шкалирование переменных. Доминантные переменные. Категориальные данные и расстояние Говера. Проблемы смешанных данных. Применение преобразования Фурье и вейвлет-анализа. Введение в уменьшение размерности данных с помощью методов PCA, t-SNE и UMAP. Методы балансировки классов для работы с несбалансированными данными различных степеней. Понижающий и повышающий отбор. Понижающая и повышающая перевесовка. Методы проведения экспертиз для выявления наиболее значимых факторов. Понятия парциальной и комплексной обработки. Интерпретация результатов предварительного анализа данных
- Компетенции обучающегося, формируемые в результате освоения дисциплины
- Выпускник должен обладать:
- ПК-8 [BD-1] Способен осуществлять поиск, сбор, очистку и предварительный анализ данных
- ПК-9 [BD-2] Способен определять требования к наборам данных для решения задач машинного обучения, проводить разметку и анализ наборов данных, оценивать качество данных, обеспечивать непрерывную интеграцию данных
- Образование
- Учебный план 01.03.02, 2025, (4.0), Прикладная математика и информатика
- Сбор, анализ и предобработка данных в машинном обучении


