Распознавание именованных сущностей: подход на основе вики-ресурсов.


Распознавание именованных сущностей: подход на основе вики-ресурсов.

Авторы

Сысоев А., Андрианов И.

Аннотация

Распознавание и классификация именованных сущностей - важная задача обработки естественного языка, нацеленная поиск слов и словосочетаний, которые обозначают именованные сущности в текстах. Данная проблема рассматривалась в задаче 1 сравнительного тестирования FactRuEval-2016. В контексте данного тестирования, наша команда, представляющая ИСП РАН, предложила два подхода к использованию информации, полученной из Викиданных и Википедии, для улучшения качества методов распознавания именованных сущностей. В первом подходе word2vec-вектора слов, подсчитанные на Википедии, используются совместно с типовыми признаками для классификации токенов. Второй подход задействует и Викиданные, и Википедию для автоматического построения представительного корпуса для обучения алгоритмов распознавания именованных сущостей. Кроме того, Викиданные, представляемые как граф со свойствами, используются для сбора словарей специфичных для именованных сущностей слов. Наши подходы (отмеченные идентификатором 'Orange' в отчете организаторов FactRuEval-2016) показывают перспективные результаты, особенно хорошо работая для таких хорошо определенных классов как люди, оставаясь при этом удовлетворительными для распознавания сущностей других типов.

Полный текст статьи в формате pdf

Издание

Компьютерная лингвистика и интеллектуальные технологии (Труды ежегодной международной конференции “Диалог”). Выпуск 15(22). 2016. сс. 746-755.

Научная группа

Информационные системы

Все публикации за 2016 год Все публикации