- Цели и задачи дисциплины
- Цели дисциплины: 1. Формирование у студентов систематизированных знаний о фундаментальных принципах и методах обучения с подкреплением. 2. Развитие практических навыков реализации и применения алгоритмов RL для решения прикладных задач. 3. Подготовка к самостоятельной работе с современными фреймворками и исследовательскими методами в области RL. Задачи курса: 1. Освоить математические основы обучения с подкреплением (MDP, уравнение Беллмана). 2. Изучить основные классы алгоритмов RL: методы временных разностей, Q-обучение, политические градиенты. 3. Сформировать понимание архитектур глубокого RL (DQN, Актор-Критик). 4. Приобрести навыки проектирования и тестирования RL-систем. 5. Научиться анализировать и интерпретировать результаты обучения RL-агентов. 6. Освоить практическое применение RL-библиотек и инструментов. 7. Выработать способность критически оценивать ограничения и перспективы методов RL.
- Краткое содержание дисциплины
- Курс посвящен изучению фундаментальных принципов и современных методов обучения с подкреплением — ключевого направления искусственного интеллекта. В рамках курса рассматриваются математические основы марковских процессов принятия решений, уравнения Беллмана, а также основные классы алгоритмов: от классических методов временных разностей и Q-обучения до глубоких нейросетевых архитектур (DQN, Актор-Критик). Особое внимание уделяется практическим аспектам: проектированию систем вознаграждения, работе с симуляторами, особенностям обучения в реальных задачах. Студенты освоят популярные фреймворки и библиотеки для реализации RL-алгоритмов, научатся анализировать поведение агентов и оптимизировать гиперпараметры моделей. Курс включает выполнение лабораторных работ с постепенным усложнением — от решения классических окружений до создания собственных RL-систем.
- Компетенции обучающегося, формируемые в результате освоения дисциплины
- Выпускник должен обладать:
- ПК-22 [ML-6] Способен применять алгоритмы обучения с подкреплением
- ПК-24 [FC-3] Способен проводить фронтирные исследования в области управления, решения, агентных и мультиагентных систем
- Образование
- Учебный план 09.03.04, 2025, (4.0), Программная инженерия
- Обучение с подкреплением


