Сбор и извлечение данных с веб-сайтов СМИ
Авторы
Аннотация
Для понимания текущего состояния и динамики развития информационного пространства сети Интернет необходимы инструменты массового сбора и извлечения данных с сайтов СМИ, обладающие высокими скоростью и покрытием. Однако далеко не все сайты предоставляют синдикацию данных в RSS формате, а разработка специализированных инструментов извлечения данных для каждого веб-сайта является трудозатратной. В работе предлагаются методы, позволяющие автоматически собирать тексты новостей с произвольных сайтов СМИ. За счет классификации типов веб-страниц и последующей группировки их URL адресов, удалось повысить качество извлечения текстов новостей. Также предложена стратегия обхода сайта с выявлением страниц, содержащих списки ссылок на новостные страницы, позволяющая сократить число запросов и снизить нагрузку на сайт.
Издание
Программирование, №5, стр. 68-80
DOI: 10.31857/S013234740001216-2
Научная группа
Все публикации за 2018 год
