Сборники трудов ИСП РАН


Извлечение объектов и их атрибутов из таблиц текстовых документов.

Никита Астраханцев.

Аннотация

Извлечение информации из таблиц является важной и достаточно сложной частью информационного поиска. В рамках задачи извлечения объектов из HTML-таблиц предлагаются методы, решающие следующие проблемы: определение ориентации таблицы, обработка агрегирующих объектов (таких как Total) и разрозненных заголовков (подзаголовков, перерезов).

Ключевые слова

извлечение информации; информационный поиск; обработка естественного языка; обработка таблиц; извлечение таблиц; html; wiki markup

Издание

Труды Института системного программирования РАН, том 21, 2011, стр. 297-310.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома