Dedoc: система извлечения содержимого и структуры текстовых документов

Dedoc – универсальная открытая библиотека для приведения документов к единому выходному формату. Автоматически извлекает содержимое, иерархическую структуру, таблицы, форматирование и метаинформацию. Содержимое документов представляется в виде дерева, кодирующего заголовки и списки различного уровня вложенности. Dedoc может встраиваться как отдельный компонент в системы анализа структуры и содержимого документов.

Особенности и преимущества

Dedoc реализован на языке Python. Работает со слабоструктурированными форматами данных (DOC*, ODT, XLS/XLSX, CSV, TXT, JSON) и с неструктурированными форматами изображений (PNG, JPG и др.), архивами (ZIP, RAR и др.), PDF, HTML. Извлечение структуры документа проводится в полностью автоматическом режиме вне зависимости от типа входных данных, с извлечением метаинформации и разного вида форматирования текста.

Dedoc – это:

Python-библиотека c открытым исходным кодом (https://github.com/ispras/dedoc).
Расширяемость за счёт гибкого добавления поддержки новых форматов документов и простоты изменения выходного формата данных.
Поддержка извлечения структуры вложенных документов различных форматов.
Извлечение разного вида форматирования текста (отступы, шрифты, жирность, размер шрифта и др.).
Работа с документами различной предметной области (технические задания, нормативно-правовые акты, научные отчёты и статьи) и возможность добавления обработки документов новой предметной области.
Работа с PDF-документами, содержащими текстовый слой:
- поддержка автоматического определения корректности текстового слоя.
Извлечение табличной информации из DOC*, PDF-документов, HTML, форматов изображений, CSV:
- распознавание физической структуры и текста ячеек сложных многостраничных таблиц с границами на изображениях с помощью методов контурного анализа.
Работа со сканированными черно-белыми документами (формата PDF без текстового слоя и с форматами изображений):
- работа с активно развивающимся движком оптического распознавания символов OCR Tesseract компании Google в совокупности с использованием методов предварительной обработки изображений;
- использование современных методов машинного обучения для определения ориентации документов, определения одно/многоколоночных документов, полужирного текста и извлечения иерархической структуры на основе классификации строк извлечённых признаков из изображений документов;
- автоматическая обработка PDF-документов с некорректным текстовым слоем;
- возможность обработки сканированных документов с подложкой.

Для кого предназначена система Dedoc?

Разработчики прикладных систем анализа содержимого электронных документов и документооборота.
Разработчики интеллектуального анализа текста документов.
Разработчики систем автоматической обработки текстов.

Поддерживаемые языки

Русский и английский.

Схема работы

Разработчик/участник

Информационные системы

Перейти к списку всех технологий

На нашем сайте мы используем cookie файлы, содержащие информацию о предыдущих посещениях веб-сайта. Данные обрабатываются для улучшения качества работы нашего веб-сайта. Если вы не хотите использовать cookie файлы, измените настройки браузера.

Понятно