DEDOC: Система извлечения структуры документов
Dedoc – универсальная открытая система для приведения документов к единому формату. Автоматически извлекает логическую структуру, таблицы и метаинформацию. Содержимое документов представляется в виде дерева, кодирующего заголовки и списки различного уровня вложенности. Dedoc может встраиваться как отдельный компонент в системы анализа структуры и содержимого документов.
Особенности и преимущества
Dedoc реализован на языке Python. Работает со слабоструктурированными форматами данных (DOC*, ODT, XLS/XLSX, CSV, TXT, JSON). Позволяет добавлять плагины, в частности, пакет расширений Docreader для работы с изображениями (PNG, JPG и др.), архивами (ZIP, RAR и др.), PDF, HTML. Извлечение структуры документа проводится в полностью автоматическом режиме вне зависимости от типа входных данных, с извлечением метаинформации и разного вида форматирования текста.
Dedoc – это:
- Расширяемость за счет гибкого добавления поддержки новых форматов документов и простоты изменения выходного формата данных.
- Поддержка извлечения структуры вложенных документов различных форматов.
- Извлечение разного вида форматирования текста (отступы, шрифты, жирность, размер шрифта и др.).
- Добавление правил корректировки списков, неправильно составленных в документе (с опечатками).
- Извлечение табличной информации из XML формата DOC*.
Docreader – это:
- Работа с изображениями сканированных документов различного назначения (технические задания, нормативно-правовые акты, научные отчёты и статьи) и гибкая настройка под документы новой предметной области.
- Работа с PDF-документами – как с текстовым слоем, так и без.
- Распознавание физической структуры и текста ячеек сложных многостраничных таблиц с границами на изображениях с помощью методов контурного анализа; определение ориентации таблиц на изображении.
- Работа с активно развивающимся движком оптического распознавания символов OCR Tesseract компании Google в совокупности с использованием методов предварительной обработки изображений.
- Использование современных методов машинного обучения для определения ориентации документов и извлечения иерархической структуры на основе классификации строк извлеченных признаков из изображений документов.
Для кого предназначена система Dedoc?
- Разработчики прикладных систем анализа содержимого документов и документооборота.
- Разработчики интеллектуального анализа текста документов.
- Разработчики систем автоматической обработки текстов.
Поддерживаемые языки
Русский и английский.
Схема работы
Схема работы для английской версии
Исполнитель
Перейти к списку всех проектов