Распознавание именованных сущностей: подход на основе вики-ресурсов.
Авторы
Аннотация
Распознавание и классификация именованных сущностей - важная задача обработки естественного языка, нацеленная поиск слов и словосочетаний, которые обозначают именованные сущности в текстах. Данная проблема рассматривалась в задаче 1 сравнительного тестирования FactRuEval-2016. В контексте данного тестирования, наша команда, представляющая ИСП РАН, предложила два подхода к использованию информации, полученной из Викиданных и Википедии, для улучшения качества методов распознавания именованных сущностей. В первом подходе word2vec-вектора слов, подсчитанные на Википедии, используются совместно с типовыми признаками для классификации токенов. Второй подход задействует и Викиданные, и Википедию для автоматического построения представительного корпуса для обучения алгоритмов распознавания именованных сущостей. Кроме того, Викиданные, представляемые как граф со свойствами, используются для сбора словарей специфичных для именованных сущностей слов. Наши подходы (отмеченные идентификатором 'Orange' в отчете организаторов FactRuEval-2016) показывают перспективные результаты, особенно хорошо работая для таких хорошо определенных классов как люди, оставаясь при этом удовлетворительными для распознавания сущностей других типов.
Полный текст статьи в формате pdfИздание
Компьютерная лингвистика и интеллектуальные технологии (Труды ежегодной международной конференции “Диалог”). Выпуск 15(22). 2016. сс. 746-755.
Научная группа
Все публикации за 2016 год
