Texterra: базовый семантический анализатор


Скачать сборник технологий

Texterra: базовый семантический анализатор

Texterra — масштабируемая платформа для извлечения семантики из текста. Базовый комплекс технологий для создания многофункциональных прикладных приложений. Анализирует тексты с помощью выделения концептов. Включена в Единый реестр российского ПО (№4048).

Особенности и преимущества

Texterra осуществляет уникальный анализ русскоязычных текстов на основе выделения концептов, а не только слов. Отличается от иностранных аналогов преимущественным вниманием к русскому языку. Базируется на результатах фундаментальных исследований и предоставляет возможность интеграции с поисковой системой Elasticsearch, существенно расширяя её возможности. Удачное сочетание технологий позволяет платформе конкурировать с проектами уровня IBM Watson Natural Language Understanding.

Texterra – это:

  • Высокая скорость обработки текста (морфологический анализ – 69 000 слов в секунду, синтаксический – 39 100 слов/сек, разрешение кореферентности – 10 100 слов/сек, полный разбор текста – приблизительно 13 600 слов/сек).
  • Максимальное внимание к русскому языку (в отличие от аналогичных проектов spaCy и UDPipe, а также IBM Watson Natural Language Understanding, который не поддерживает анализ эмоций и концептов в русскоязычных текстах).
  • Большой объём знаний (более 7 миллионов понятий).
  • Построение базы знаний без привлечения экспертов (автоматическое пополнение с помощью Wikipedia, MediaWiki, Linked Open Data и др.).
  • Масштабируемость как по скорости обработки текстов, так и по объёму знаний (с помощью Apache Ignite и облачной среды Asperitas (ИСП РАН));
  • Высокая точность анализа текста благодаря ряду ключевых особенностей:
    • многоуровневый поиск по смежным понятиям;
    • адаптивность к сленгу, хэштегам и ошибкам;
    • анализ эмоциональной окраски (с разделением отношения к объектам и их атрибутам);
    • определение взаимосвязей людей и компаний (на основе информации в тексте);
    • определение неявных упоминаний объектов в дискуссиях.
  • Высокая скорость разработки индивидуального решения.
  • Два варианта использования:
    • в качестве отчуждаемого продукта на локальном сервере заказчика с доступом как по протоколу HTTP (REST-архитектура), так и по протоколу RMI;
    • онлайн на сайте https://texterra.ispras.ru/.
  • Простое и быстрое освоение специфичных предметных областей и возможность интеграции новых языков для анализа (благодаря современному подходу к машинному обучению).

Для кого предназначена Texterra?

  • Разработчики корпоративного ПО (в частности, чат-ботов).
  • Разработчики систем семантического поиска для специфических предметных областей (информационная безопасность, медицина, аудит и т.п.).
  • Разработчики прикладных систем обработки текста.

Опыт внедрения

Texterra доработана до промышленного уровня в рамках сотрудничества с HP и Samsung (цель совместных проектов – получение технологий для анализа корпоративной отчётности и поддержки работы смарт-телевидения). В настоящее время на базе платформы работает ряд оригинальных разработок ИСП РАН (в частности, технология анализа социальных медиа Talisman). Texterra используется также рядом государственных ведомств России.

Поддерживаемые языки

Texterra анализирует тексты на русском и английском языках.

Системные требования

  • Любые платформы, поддерживаемые Java 8.
  • Не менее 16 Гб оперативной памяти для каждого из анализируемых языков.
  • Рекомендуется применение 64-битной версии ОС.

Схема работы

Базовый семантический анализатор Texterra

По вопросам определения стоимости, приобретения и использования обращайтесь по адресу scsec@ispras.ru

Проекты

Visontia - сервис для визуализации базы знаний системы TexterraИсследование и разработка методов построения и обогащения онтологии на основе коллекции текстовых документовAnnotame - сервис для автоматизации процесса разметки текстовых документов

Разработчик/участник

Информационные системы

Перейти к списку всех технологий