Институт системного программирования им. В.П. Иванникова РАН


DEDOC: Система извлечения структуры документов

Dedoc – универсальная открытая система для приведения документов к единому формату. Автоматически извлекает логическую структуру, таблицы и метаинформацию. Содержимое документов представляется в виде дерева, кодирующего заголовки и списки различного уровня вложенности. Dedoc может встраиваться как отдельный компонент в системы анализа структуры и содержимого документов.

Особенности и преимущества

Dedoc реализован на языке Python. Работает со слабоструктурированными форматами данных (DOC*, ODT, XLS/XLSX, CSV, TXT, JSON). Позволяет добавлять плагины, в частности, пакет расширений Docreader для работы с изображениями (PNG, JPG и др.), архивами (ZIP, RAR и др.), PDF, HTML. Извлечение структуры документа проводится в полностью автоматическом режиме вне зависимости от типа входных данных, с извлечением метаинформации и разного вида форматирования текста.

Dedoc – это:

  • Расширяемость за счет гибкого добавления поддержки новых форматов документов и простоты изменения выходного формата данных.
  • Поддержка извлечения структуры вложенных документов различных форматов.
  • Извлечение разного вида форматирования текста (отступы, шрифты, жирность, размер шрифта и др.).
  • Добавление правил корректировки списков, неправильно составленных в документе (с опечатками).
  • Извлечение табличной информации из XML формата DOC*.

Docreader – это:

  • Работа с изображениями сканированных документов различного назначения (технические задания, нормативно-правовые акты, научные отчёты и статьи) и гибкая настройка под документы новой предметной области.
  • Работа с PDF-документами – как с текстовым слоем, так и без.
  • Распознавание физической структуры и текста ячеек сложных многостраничных таблиц с границами на изображениях с помощью методов контурного анализа; определение ориентации таблиц на изображении.
  • Работа с активно развивающимся движком оптического распознавания символов OCR Tesseract компании Google в совокупности с использованием методов предварительной обработки изображений.
  • Использование современных методов машинного обучения для определения ориентации документов и извлечения иерархической структуры на основе классификации строк извлеченных признаков из изображений документов.

Для кого предназначена система Dedoc?

  • Разработчики прикладных систем анализа содержимого документов и документооборота.
  • Разработчики интеллектуального анализа текста документов.
  • Разработчики систем автоматической обработки текстов.

Поддерживаемые языки

Русский и английский.

Схема работы

Схема работы инструмента DEDOC

Схема работы для английской версии

Схема работы инструмента DEDOC для английской версии

Разработчик/участник

Информационные системы

Перейти к списку всех технологий