Сборники трудов ИСП РАН


Извлечение предментно-ориентированных подмножеств словаря Википедии с использованием структуры категорий.

А.В. Коршунов, Д.Ю. Турдаков, Чингук Чонг, Минхо Ли, Чансунг Мун.

Аннотация

В то время как многие исследователи пытаются построить различные онтологии с помощью Википедии, возможность получения качественных предметно-ориентированных подмножеств словаря Википедии остаётся недооценённой. Мы демонстрируем необходимость подобной процедуры и предлагаем соответствующую методику. В результате размер базы знаний нашего фреймворка для обработки текстов уменьшился более чем на порядок, а точность дизамбигуации метаданных музыкальных файлов (ID3-тегов) уменьшилась с 98% до 64%.

Ключевые слова

Википедия; онтология; автоматизированное построение онтологий; категория; таксономия; семантическая связанность; обработка ественного языка; Текстерра

Издание

Труды Института системного программирования РАН, том 21, 2011, стр. 323-348.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома