Сборники трудов ИСП РАН


Texterra: инфраструктура для анализа текстов.

Денис Турдаков, Никита Астраханцев, Ярослав Недумов, Андрей Сысоев, Иван Андрианов, Владимир Майоров, Денис Федоренко, Антон Коршунов, Сергей Кузнецов.

Аннотация

В статье описан проект Texterra, в рамках которого была создана инфраструктура для анализа текстов. Texterra предоставляет масштабируемое решение для быстрой обработки текстовых документов, основанное на использовании знаний, извлекаемых из Веб-ресурсов и текстовых документов. В данной статье раскрываются детали реализации проекта, варианты использования и результаты экспериментальных исследований разработанных инструментов.

Ключевые слова

анализ текстов, обработка естественного языка, Википедия, компьютерная лингвистика, машинное обучение, базы знаний, семантические онтологии, информационный поиск, извлечение терминологии

Издание

Труды Института системного программирования РАН, том 26, вып. 1, 2014, стр. 421-438.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2014-26(1)-18

Полный текст статьи в формате pdf Вернуться к содержанию тома