Автоматическое выделение сленговых выражений в сети Интернет для обогащения словарей именованных сущностей
Автоматическое выделение сленговых выражений в сети Интернет для обогащения словарей именованных сущностей
Авторы
Аннотация
Сообщения пользователей социальных медиа, таких как ВКонтакте, содержат сленговые выражения, что затрудняет автоматический поиск упоминаний объектов интереса. В большинстве задач объектами интереса являются именованные сущности, такие как персоны, организации и пр.
В данной работе мы ограничились автоматическим поиском именованных сущностей, описанных в заранее заданных словарях (например, Викиданных --- \url{www.wikidata.org}). Мы разработали алгоритмы автоматического выявления сленговых выражений в социальных медиа с дальнейшим обогащением ими словарей именованных сущностей. Алгоритмы основаны на активном обучении логистической регрессии и глубоких нейронных сетей [1].
Отличиями от существующих работ являются: поддержка русского языка; учет специфики сленга (морфологической близости и совместной встречаемости с соответствующими литературными выражениями) при помощи моделей векторного представления слов [2]; использование информации о тематике сообщества и автора, которым принадлежит текст, получаемой на основе обученных тематических моделей с аддитивной регуляризацией [3].
Обогащенные словари позволяют, помимо выделения сленговых именованных сущностей в текстах, устанавливать соответствие между выделенными сущностями и объектами словарей (конкретных персон, организаций и пр. из заранее известного множества, определяемого словарем), решая проблему множественности текстовых представлений одного и того же объекта.
В работе продемонстрировано улучшение точности и полноты выделения именованных сущностей и сопоставления их с объектами в сравнении с существующими подходами на тестовых данных с ручной экспертной разметкой.
Издание
Тезисы доклада. Ломоносовские чтения-2018, секция "Вычислительная математика и кибернетика", МГУ имени М.В. Ломоносова, Россия, 16-27 апреля 2018
Научная группа
Все публикации за 2018 год
