Адрес:

109004, г. Москва,
ул. А. Солженицына,
дом 25.

Схема проезда

Факс:

+7(495) 912-15-24

E-mail:

info-isp@ispras.ru

Отдел «Информационных систем»

Проекты

Sedna — прирожденная XML-СУБД

Полнофункциональная система управления базами данных, спроектированная специально для работы с XML-данными, с поддержкой языка W3C XQuery. XML — стандарт для хранения и обмена информацией в Вебе.

Для того чтобы облегчить работу с большими объемами XML-данных, мы разработали специальную СУБД под названием Sedna. Sedna — открытая XML-СУБД, которая предоставляет полный набор основополагающих сервисов баз данных: постоянное хранение, ACID-транзакции, безопасность, индексы, "горячее" резервное копирование. Удобные инструменты для работы с XML включают в себя реализацию языка W3C XQuery, тесную интеграцию XQuery с полнотекстовым поиском и язык обновления на уровне узлов. В качестве демонстрации работы Sedna может служить наш проект WikiXMLDB.

Texterra — набор инструментов для интеллектуального анализа текстов

Texterra — набор инструментов для интеллектуального анализа текстов, основанный на инновационных методах обработки текстов с использованием семантической информации, извлеченной из Википедии. Texterra предоставляет решение для организации и мониторинга коллекций документов без дорогостоящих модификаций, которые необходимы в современных системах. Википедия используется как база знаний для интеллектуального анализа и семантического поиска в обычных документах (не в статьях Википедии, а в новостях, блогах и т. п.). Граф ссылок Википедии анализируется с целью подсчета меры семантической близости между терминами Википедии. В качестве результата строится семантический граф терминов, содержащий более 3 миллионов узлов (для сравнения: энциклопедия Британника содержит 65 000 терминов). На основе этого графа интерпретируются значения и взаимосвязи терминов в текстовых документах. Используя меру семантической близости, основанную на Википедии, можно построить семантический граф для текстового документа, затем проанализировать граф документа для определения ключевых слов, темы документа и т. д. Это позволяет кардинально улучшить существующие техники  и предоставить новую функциональность, такую как тематическая группировка ключевых слов и построение выразительной иерархической онтологии (облака тегов), описывающей коллекцию текстов. Это также значительно повышает эффективность поиска и навигации путем ранжирования результатов, которое учитывает семантику — значение терминов и количество связанных по смыслу терминов в документе, — и путем добавления фасетной навигации.

Blognoon — система навигации и анализа контента

Blognoon (http://blognoon.com) — инновационная система для исследования контента, основанная на технологии Texterra. Blognoon предоставляет следующую функциональность:

  • семантический поиск по контенту;
  • навигация и описание контента;
  • рекомендация контента и источников контента;
  • автоматическое описание источников контента.

Модель данных Blognoon состоит из двух концепций: контент и источники контента. Контент — это некоторая информационная единица. Например, демонстрационная версия Blognoon использует определенное количество фиксированных веб-журналов в качестве источников контента, а записи из этих журналов - в качестве контента. Другим примером пар контент-источники контента могут служить песни-исполнители, фильмы-студии, книги-писатели и т. д. Пользователь может искать и по контенту, и по источникам контента, результаты будут ранжированы в соответствии с семантической близостью и значит, релевантны пользовательскому запросу. Также система позволяет осуществлять навигацию по результатам поиска и уточнение первоначального запроса при помощи поискового интерфейса, расширенного фасетами. В дополнение к этому возможен анализ различных областей информации с помощью автоматического описания источников контента и инструментов рекомендации, основанных на семантических графах документов.

Таким образом, Blognoon может использоваться для мониторинга новостей и анализа информации, извлекаемой из традиционных периодических изданий и сети Интернет; организации библиотек электронных документов (например, патентов, технической документации, научных и других публикаций и так далее); анализа различных документов в организациях для построения корпоративных баз знаний или повышения эффективности систем документооборота.

Инфраструктура управления контентом и знаниями

Заказчик: Научное издательство "Большая Российская энциклопедия"

Данная инфраструктура предоставляет службы управления полным жизненным циклом знаний и контента, которые используются для разработки современных информационных продуктов, основанных на энциклопедиях и ссылках. XML-СУБД Sedna является главным компонентом инфраструктуры. Она позволяет использовать один и тот же контент в разных документах и форматах, обеспечивает повторное использование контента, превосходные поиск и навигацию, а также значительную гибкость и удобство модификации информационных продуктов.

Инструменты обработки естественного языка для задачи усмирения информационного взрыва

Главная цель этого проекта состоит в разработке новых инструментов обработки естественного языка и в применении этих инструментов для анализа текстовых документов. В настоящее время исследование ведется по двум направлениям:

  1. извлечение информации из таблиц, списков и перечислений;
  2. построение иерархий объектов и атрибутов.

Данный проект ведется при поддержке Программы инновационных исследований HP Labs.

D-test — система создания тестов разрешения лексической многозначности, основанная на Википедии

Главная цель данной системы состоит в создании тестового корпуса для разрешения лексической многозначности путем предоставления пользователю дружественного интерфейса для разметки текста. Этот проект использует  Texterra для предварительной обработки документов.

Завершенные проекты

WikiXMLDB

Данный проект предоставляет возможность совершать запросы к Википедии на языке XQuery. Содержимое Википедии было представлено в правильно структурированном XML-формате и загружено в XML-базу данных Sedna. Для запросов на языке XQuery был реализован веб-интерфейс. Сайт проекта: WikiXMLDB.org

Набор инструментов SXML

Данный набор инструментов реализует техники функционального программирования для обработки XML-данных на языке программирования Scheme.

TweetSieve

Микроблогосфера обладает уникальными характеристиками: это источник крайне актуальной информации о событиях, происходящих во всем мире; это собрание мудрости миллионов людей и широкое покрытие различных областей информации: от инаугурации президента США до выхода нового альбома малоизвестной музыкальной группы. Twitter является наиболее популярным средством ведения микроблогов, поэтому мы разработали систему анализа сообщения Twitter, которую назвали TweetSieve. В демонстрационной версии TweetSieve пользователь может указать интересующую его тему обычной текстовой строкой для поиска. Система показывает период, в течение которого происходили события, соответствующие теме, и выводит сообщения (tweets) , лучше всего описывающие данные события. Демонстрационная версия иллюстрирует потенциал подхода к анализу микроблогосферы: с его помощью скорость и полнота отбора интересующих новостей переходит на новый уровень. Данная система описана в статье "Поиск событий, интересных пользователю, в потоке микроблогов (Sifting Micro-blogging Stream for Events of User Interest)".

BizQuery — виртуальная система интеграции данных, основанная на XML (2000-2003)

BizQuery — это пакет серверов и инструментов для разработки приложений, оперирующих разнородными источниками данных. Главным компонентом пакета является Сервер интеграции BizQuery Integration Server, который предназначен для совершения запросов на языке XQuery к разнородным базам данных. Сервер интеграции BizQuery Integration Server поддерживает концепцию глобальной схемы данных, определенную в XML. Глобальная схема создается для представления области конкретного приложения, и на нее отображаются источники данных. BizQuery поддерживает виртуальный подход: пользователь делает запрос над глобальной схемой, система интеграции данных переформулирует его в запрос над источниками данных и выполняет.  Основные технические особенности BizQuery следующие:

  • Поддержка открытых стандартов гарантирует легкость программирование и интеграции с существующими приложениями (XML, пространства имен XML, XSLT, XQuery, OMG XMI, OMG UML и т. д.).
  • Двухуровневый интерфейс предоставляет два способа совершения запроса данных: в терминах XML или в терминах UML-модели.
  • Поддержка XQuery привлекательна для пользователей благодаря выразительной мощности этого языка.
  • Автоматическая и при этом настраиваемое создание трех видов пользовательского интерфейса запросов (т. е. формы, графические карты для запросов с поддержкой UML-нотации, каталоги).
  • Легкое взаимодействие с любыми языками и средами с использованием протокола SOAP. Открытый интерфейс веб-служб предоставляет возможность интеграции для приложений, написанных на любом языке (Java, VB, Perl, C/C++, C#, Python).

Для получения дополнительной информации см. обзор BizQuery (англ.) или страницу Публикации.

ISP ORB

ISP C++ ORB — бесплатное инструментальное средство для разработки распределенного программного обеспечения. Брокер объектных запросов (ORB)  играет роль коммуникатора между различными компонентами распределенных приложений, которые могут выполняться на разных платформах.

ISP C++ ORB соответствует стандарту Common Object Request Broker Architecture 2.0 (CORBA 2.0) консорциума OMG.Также разработана и доступна для использования реализация суперструктуры отображения IDL/C++. Эта суперструктура может применяться к любому C++ ORB, соответствующему спецификации CORBA 2.0. Реализация IDL/C++ обеспечивает надежное и удобное средство отображения.

Реализация ISP C++ ORB не опирается на новые возможности языка C++, такие как перехват исключений и пространства имен. Таким образом, эта реализация может быть скомпилирована на различных версиях компилятора C++ (проверялось для g++ 2.7.2, 2.8, egcs). Она может быть установлена на основных Unix-платформах, а также на Windows 95/98/NT в среде CygWin (проверялось для версии 20.1). Эта реализация поддерживает и однопоточные, и многопоточные среды (из-за отсутствия реализации потоков POSIX в среде CygWin для платформ Windows поддерживается только однопоточный вариант). ISP C++ ORB можно установить и использовать в двух режимах: как библиотека общего пользования или как обычная библиотека. Загрузить ISP C++ ORB можно здесь.

Более практические (и коммерческие) аспекты работы связаны с сотрудничеством с компанией Nortel Networks. По контракту с компанией был реализован Protel-2 ORB для проекта Nortel Networks Open Node. Protel-2 — проприетарный язык программирования Nortel. Брокер объектных запросов для языка Protel-2 является примером брокера, реализованного для использования в специальной среде телекоммуникационного модуля.

GNU SQL Server

GNU SQL Server — это бесплатная переносимая многопользовательская реляционная система управления базами данных. Она поддерживает полную версию диалекта SQL89 и имеет некоторые расширения относительно SQL92. GNU SQL Server реализует высокий уровень изолированности транзакций и статическую и динамическую компиляцию запросов. И серверная, и клиентская стороны системы работают на Unix-подобных системах. Клиент-серверное взаимодействие основано на механизме RPC. Взаимодействие серверных процессов основано на механизмах посылки сообщений и разделяемой памяти. Наиболее интересные результаты исследования следующие:

  • оптимизация запросов на основе стоимости с неунифицированным распределением значений колонок;
  • основанная на предикатах схема блокировок для управления транзакциями;
  • раздельные логическое и физическое журналирование и восстановление.

Дополнительную информацию о системе и доступные для загрузки файлы см. на домашней странице GNU SQL Server.