NewsXLM: Мультиязычный набор данных и модель для извлечения информации из новостных веб-страниц


NewsXLM: Мультиязычный набор данных и модель для извлечения информации из новостных веб-страниц

Бедрин П.А. (ИСП РАН, Москва, Россия; МГУ, Москва, Россия)
Варламов М.И. (ИСП РАН, Москва, Россия)
Яцков А.К. (ИСП РАН, Москва, Россияж; МГУ, Москва, Россия)

Аннотация

В данной работе рассматривается задача автоматического извлечения атрибутов из новостных веб-страниц на разных языках. Автоматическое извлечение структурированной информации из новостных веб-страниц имеет ключевое значение для мультиязычного веб-майнинга, агрегаторов данных и аналитических приложений. Актуальные нейросетевые подходы, хотя и демонстрируют высокую эффективность на англоязычных наборах данных для задачи извлечения из веб-страниц, предварительно обучены на англоязычных данных, что ограничивает их применимость к другим языкам. Мы представляем первый крупномасштабный мультиязычный набор данных для извлечения атрибутов новостных веб-страниц, включающий 29 081 аннотированные веб-страницы с 759 веб-сайтов на 56 языках. Каждая страница содержит привязанные к DOM-узлам аннотации до пяти ключевых атрибутов новости (заголовок, дата публикации, текст, авторы и теги), а также исходные HTML- и MHTML- файлы, их переведённые на английский язык версии, скриншоты и метаданные рендеринга на уровне узлов. Мы оцениваем ряд открытых методов извлечения данных, включая эвристические инструменты и современные трансформерные модели. В частности, мы дообучаем предобученную англоязычную модель MarkupLM как на оригинальных, так и на переведённых на английский страницах, а также с нуля предобучаем мультиязычную модель на основе DOM-LM на мультиязычном корпусе новостных веб-страниц с последующим дообучением на нашем наборе данных. Экспериментальная оценка показывает, что мультиязычный DOM-LM демонстрирует лучшее общее качество по большинству атрибутов и языков без использования машинного перевода, тогда как MarkupLM выигрывает от перевода, но является менее стабильным в мультиязычном сценарии. Представленный набор данных и все обученные модели опубликованы для практического использования и будущих исследований в области мультиязычного извлечения информации из Интернета и связанных приложений в новостном домене.

Ключевые слова

извлечение веб-данных; извлечение информации; набор данных веб-страниц; новости; мультиязычный набор данных; мультиязычная модель; нейронные сети

Издание

Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 149-164.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(2)-10

Для цитирования

Бедрин П.А., Варламов М.И., Яцков А.К. NewsXLM: Мультиязычный набор данных и модель для извлечения информации из новостных веб-страниц. Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 149-164. DOI: 10.15514/ISPRAS-2026-38(2)-10.

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома