Основы обработки текстов
Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.
Рассматриваемые темы
- Задачи обработки текстов.
- Регулярные выражения и конечные автоматы.
- Методы поиска словосочетаний.
- N-граммы и определение частей речи слов.
- Методы классификации и кластеризации.
- Контекстно-свободные грамматики и синтаксический анализ.
- Статистические методы синтаксического анализа.
- Лексическая семантика.
- Вопросно-ответные системы и автоматическое реферирование.
- Машинный перевод.
- Тематическое моделирование.
- Распределенные методы обработки текстов.
Курс группы
Перейти к учебным курсам ИСП РАН