Извлечение информации из текста

Цели и задачи дисциплины
Целью данного курса является ознакомление студентов с современными техническими средствами и информационными технологиями, служащими для задач автоматического извлечения информации из текста. Задачами курса являются приобретение студентами навыков работы с основными методами и основными существующими техническими средствами автоматического извлечения информации из текстов, а также умение изучать и осваивать новые технические средства и информационные технологии этого вида научно-технической деятельности.
Краткое содержание дисциплины
1. Типы задач, решаемых автоматическим извлечением информации из текстов. Корпус текстов как объект извлечения информации. Типы и способы разметки корпуса текстов. Существующие ресурсы. 2. Современные подходы к извлечению лингвистической и фактографической информации из текста. Подход, основанный на словарях и правилах: этапы работы, проблемы. Подход на основе машинного обучения: этапы работы, проблемы. 3. Методы разрешения лексической неоднозначности. Метод PageRank в задаче разрешения лексической многозначности. Методы машинного обучения в задаче автоматического разрешения лексической неоднозначности. Метод Decision List. 4. Задачи извлечения именованных сущностей и извлечения ​отношений: подходы к подготовке обучающей коллекции. Bootstrapping. Distant supervision 5. Автоматический информационный поиск. Задача извлечения ключевых слов, многокомпонентной лексики из текстов. 6. Контент-анализ в компьютерной лингвистике. Задача анализа тональностей. Задача анализа эмоций. Задача извлечения и фактографической информации. Программа Word2vec и ее применения. 7. Задачи и методы автоматического сравнения текстов. Задача агрегации новостей. Задача проверки текстов на плагиат.
Компетенции обучающегося, формируемые в результате освоения дисциплины
Выпускник должен обладать:
  • ПК-2 Способен управлять получением, хранением и обработкой языковых данных для решения профессиональных задач
  • ПК-4 Способен осуществлять организацию разработки лингвистического программного обеспечения с применением методов обработки письменного текста и звучащей речи на естественном языке, в том числе методов машинного обучения, искусственных нейронных сетей
Вы нашли ошибку в тексте:
Просто нажмите кнопку «Сообщить об ошибке» — этого достаточно. Также вы можете добавить комментарий.