Направления работы Отдела информационных систем


Обработка естественного языка и анализ текстов

Обработка естественного языка (Natural Language Processing, NLP) – научная область на стыке информатики, искусственного интеллекта и лингвистики, изучающая проблемы компьютерного анализа и синтеза текстов и речи на естественных языках. NLP начинает свою историю одновременно с появлением первых компьютеров и в настоящее время демонстрирует очередной подъем, вызванный взрывным ростом вычислительных мощностей и доступной текстовой информации – как в виде «сырых» данных Веба, так и размеченных ресурсов, например Wikipedia или Freebase. 
В области обработки естественного языка выделяется множество направлений; научные интересы сотрудников Отдела информационных систем наиболее близки следующим направлениям:

  • Семантический анализ текстов, включая семантическое аннотирование, разрешение лексической многозначности, выделение ключевых понятий, автоматическое извлечение баз знаний.
  • Информационный поиск, в том числе семантический и исследовательский .
  • Извлечение информации, в том числе распознавание именованных сущностей, извлечение терминологии, разрешение кореферентности.
  • Анализ тональности текста.

Используемые методы обычно представляют собой комбинацию статистических (как правило, основанных на машинном обучении) и лингвистических. Учитывая природу современных текстовых и речевых данных, также используются методы из смежных областей – в частности, анализа социальных медиа и управления данными.

Анализ социальных сетей

Анализ социальных сетей – направление современной компьютерной социологии, которое занимается описанием и анализом возникающих в ходе социального взаимодействия и коммуникации связей (сетей) различной плотности и интенсивности. Особый интерес представляет исследование данных пользователей онлайновых социальных сетей (вКонтакте, Facebook, Twitter, YouTube и др.), которые к настоящему моменту стали неотъемлемой частью Сети. В современных социальных графах сочетаются различные типы узлов и рёбер, а также разнообразные источники текстовых, графовых, мультимедийных и других типов пользовательских данных. 
В ИСП РАН разработан стек технологий для анализа пользовательских данных из социальных сетей, основными компонентами которого являются следующие оригинальные методы:

  • Поиск неявных сообществ пользователей на основе социальных связей между ними.
  • Идентификация пользователей различных социальных сетей: поиск различных вариантов виртуальных личностей одного и того же пользователя в нескольких социальных сетях.
  • Определение демографических атрибутов пользователей (пол, возраст, религиозные и политические взгляды, семейное положение и уровень образования) с помощью лингвистического анализа текстов их сообщений.
  • Измерение информационного влияния между пользователями в социальных сетях с ориентированными связями и преобладанием текстового содержимого.
  • Генерация случайных графов, обладающих основными свойствами социальных сетей и заданной структурой сообществ пользователей. Для каждого пользователя осуществляется генерация атрибутов профиля, социальных связей, сообществ и текстовых сообщений.
  • Сбор пользовательских данных из социальных сервисов.

В разработанных технологиях находят применение методы машинного обучения, вероятностное моделирование, графовые алгоритмы, методы обработки текста на естественном языке, а также современные технологии для распределённого хранения и анализа больших массивов данных. В большинстве методов сочетается анализ сетевых данных (социальные связи между пользователями) и текстовых данных (сообщения и профили пользователей).

Инфраструктура для анализа и обработки больших данных

В настоящее время одной из наиболее острых проблем, стоящих перед человечеством, является разработка эффективных методов хранения, обработки и анализа стремительно растущего объема данных (англ. Big Data). Например, пользователями социальной сети Facebook ежедневно загружается 83 миллиона изображений на 200-400 Тб, а Google обрабатывает более 25 петабайт в день. Общее количество данных удваивается каждые полтора года. При этом данные приходят из различных источников, не имеют общей схемы, семантически и синтаксически не консистентны. 
Это привело к тому, что за последнее десятилетие отношение к данным изменилось. В отличие от прошлого века, когда данные представляли самостоятельную ценность и часто засекречивались, сейчас большинство данных доступно каждому. А преимуществом обладают те организации, которые научились максимизировать их ценность путем извлечения высококачественной и своевременной информации. 
Исследования по обработке больших данных ведутся на основе открытого стека технологий Apache. Центральной площадкой в области свободного ПО для управления данными является проект Apache Hadoop – свободное ПО для надежных масштабируемых распределённых вычислений. Вокруг этого проекта создаются специализированные системы для хранения и обработки больших данных. Одним из наиболее перспективных проектов является Apache Spark, позволяющий существенно ускорить обработку данных. Сотрудники отдела принимают активное участие в развитии этого проекта.