- Об институте
- Инновации
- Структура
- Отдел "Архитектуры вычислительных систем"
- Отдел "Информационных систем"
- Отдел "Компиляторных технологий"
- Отдел "Системного программирования"
- Отдел "Системной интеграции и прикладных программных комплексов"
- Отдел "Теоретической информатики"
- Отдел "Технологий программирования"
- Ученый совет
- Диссертационный совет
- Центр верификации ОС Linux
- Исследовательский центр доверенного искусственного интеллекта
- Центр компетенции по параллельным и распределенным вычислениям
- Образование
- Издания
- Новости
- Лицензии
Сбор и извлечение данных с веб-сайтов СМИ
Авторы
А.К. Яцков, М.И. Варламов, Д.Ю. Турдаков
Аннотация
Для понимания текущего состояния и динамики развития информационного пространства сети Интернет необходимы инструменты массового сбора и извлечения данных с сайтов СМИ, обладающие высокими скоростью и покрытием. Однако далеко не все сайты предоставляют синдикацию данных в RSS формате, а разработка специализированных инструментов извлечения данных для каждого веб-сайта является трудозатратной. В работе предлагаются методы, позволяющие автоматически собирать тексты новостей с произвольных сайтов СМИ. За счет классификации типов веб-страниц и последующей группировки их URL адресов, удалось повысить качество извлечения текстов новостей. Также предложена стратегия обхода сайта с выявлением страниц, содержащих списки ссылок на новостные страницы, позволяющая сократить число запросов и снизить нагрузку на сайт.
Издание
Программирование, №5, стр. 68-80
DOI: 10.31857/S013234740001216-2
Научная группа
Все публикации за 2018 год
