Dedoc: система извлечения содержимого и структуры текстовых документов


Скачать сборник технологий

Dedoc: система извлечения содержимого и структуры текстовых документов

Dedoc – универсальная открытая библиотека для приведения документов к единому выходному формату. Автоматически извлекает содержимое, логическую структуру, таблицы, форматирование и метаинформацию. Содержимое документов представляется в виде дерева, кодирующего заголовки и списки различного уровня вложенности. Dedoc может встраиваться как отдельный компонент в системы анализа структуры и содержимого документов.

Особенности и преимущества

Dedoc реализован на языке Python. Работает со слабоструктурированными форматами данных (DOC*, ODT, XLS/XLSX, CSV, TXT, JSON) и с неструктурированными форматами изображений (PNG, JPG и др.), архивами (ZIP, RAR и др.), PDF, HTML. Извлечение структуры документа проводится в полностью автоматическом режиме вне зависимости от типа входных данных, с извлечением метаинформации и разного вида форматирования текста.

Dedoc – это:

  • Python-библиотека c открытым исходным кодом (https://github.com/ispras/dedoc).
  • Расширяемость за счёт гибкого добавления поддержки новых форматов документов и простоты изменения выходного формата данных.
  • Поддержка извлечения структуры вложенных документов различных форматов.
  • Извлечение разного вида форматирования текста (отступы, шрифты, жирность, размер шрифта и др.).
  • Работа с документами различной предметной области (технические задания, нормативно-правовые акты, научные отчёты и статьи) и возможность добавления обработки документов новой предметной области.
  • Работа с PDF-документами, содержащими текстовый слой:
    • поддержка автоматического определения корректности текстового слоя.
  • Извлечение табличной информации из DOC*, PDF-документов, HTML, форматов изображений, CSV:
    • распознавание физической структуры и текста ячеек сложных многостраничных таблиц с границами на изображениях с помощью методов контурного анализа.
  • Работа со сканированными черно-белыми документами (формата PDF без текстового слоя и с форматами изображений):
    • работа с активно развивающимся движком оптического распознавания символов OCR Tesseract компании Google в совокупности с использованием методов предварительной обработки изображений;
    • использование современных методов машинного обучения для определения ориентации документов, определения одно/многоколоночных документов, полужирного текста и извлечения иерархической структуры на основе классификации строк извлечённых признаков из изображений документов.
    • возможность включения бинаризации для обработки документов с подложкой.

Для кого предназначена система Dedoc?

  • Разработчики прикладных систем анализа содержимого электронных документов и документооборота.
  • Разработчики интеллектуального анализа текста документов.
  • Разработчики систем автоматической обработки текстов.

Поддерживаемые языки

Русский и английский.

Схема работы

Схема работы инструмента DEDOC

Разработчик/участник

Информационные системы

Перейти к списку всех технологий