Сборники трудов ИСП РАН


Обнаружение поискового спама в Вебе на основе анализа разнообразия текстов.

А.С. Павлов, Б.В. Добров.

Аннотация

Поисковый спам считается одной из основных угроз современным поисковым системам. Спамеры используют разнообразные методы порождения текстов, известные как текстовый спам, чтобы наполнить выдачу поисковых систем низкокачественными страницами. Методы борьбы с текстовым спамом должны основываться на большом количестве текстовых характеристик. В данной статье предлагается набор характеристик текстового разнообразия, основанных на ранговых распределениях для слов и тематик. Предложенные характеристики объединяются с другими факторами, в результате чего получается классификатор поискового спама, превосходящий известные аналоги.

Ключевые слова

поисковый спам; анализ признаков; тематическое разнообразие

Издание

Труды Института системного программирования РАН, том 21, 2011, стр. 277-296.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома