Talisman. Технология анализа социальных медиа-сервисов


Talisman. Технология анализа социальных медиа-сервисов

Под термином "социальные медиа" принято понимать онлайновые социальные сети, форумы, блоги, некоторые новостные сайты и другие сервисы, предоставляющие своим пользователям возможность взаимодействия друг с другом путём обмена сообщениями, комментирования, выставления оценок и др. Социальные медиа являются уникальным источником данных о личной жизни, мнениях и интересах реальных людей.

Анализ социальных медиа позволяет более эффективно решать задачи маркетинга, рекомендации товаров и услуг, информационного поиска и многие другие.

Обработка социальных данных требует алгоритмических и инфраструктурных решений, позволяющих учитывать специфику данных (характерный язык общения, возможность не раскрывать свою личность), а также их размерность. К примеру, база данных социальной сети Facebook содержит более 1 миллиарда пользовательских аккаунтов и более 100 миллиардов связей между ними. Каждый день пользователи добавляют более 200 миллионов фотографий и оставляют более 2 миллиардов комментариев к различным объектам сети.

Для анализа социальных медиа в ИСП РАН был разработан ряд оригинальных методов, которые были объединены в технологию, получившую название TALISMAN. В отличие от большинства существующих решений для социальной аналитики, технология TALISMAN изначально была нацелена на работу с большими данными, и использует наиболее перспективные открытые решения из стека технологий Big Data: Apache Spark, GraphX, MLLib и др.

Сбор данных из социальных медиа

Первой проблемой, с которой сталкиваются разработчики инструментов для анализа социальных медиа, является проблема получения полной и актуальной информации. Инструмент сбора данных, являющийся частью технологии TALISMAN, использует все описанные подходы для сбора данных.

На текущий момент возможен сбор данных из социальных сетей (Вконтакте, Facebook, Twitter), блогов (LiveJournal) и новостных сайтов (ria.ru, lenta.ru и др.). Реализовано несколько способов получения выборок аккаунтов пользователей социальных сетей (семплирования). Реализован механизм автоматического выбора учетной записи социальной сети для каждого запроса, а также поддержка прокси-соединений. Кроме того, поддерживается многопоточное скачивание. При этом ввиду динамичности развития технологий, инструмент поддерживает возможность быстрого добавления новых сценариев скачивания, методов семплирования и поддержки новых ресурсов.

Однако сбор реальных данных часто затратен по времени и другим ресурсам, а полученные социальные графы обладают фиксированными характеристиками без возможности их изменения. Частью TALISMAN является инструмент для генерации случайных графов, обладающих основными свойствами социальных сетей (распределение степеней, диаметр, коэффициент кластеризации и т.д.), а также структурой сообществ пользователей. Предложенный метод имеет распределённую реализацию на основе фреймворка Apache Spark, что позволяет создавать случайные социальные графы большой размерности для тестирования производительности и качества методов анализа социальных данных.

Мониторинг информационных потоков

Мониторинг информационных потоков предполагает непрерывное наблюдение за социальными медиа и анализ упоминаний интересующих объектов. Технология TALISMAN позволяет выявлять типичные пути распространения информации и определять, какие роли играют пользователи и отдельные ресурсы в распространении этой информации. Основные выявляемые роли: первоисточники, распространители, читатели и лидеры мнений.

Наиболее важными характеристиками систем мониторинга являются скорость и полнота. Технология TALISMAN позволяет строить решения, превосходящие аналоги по обоим параметрам. Использование систем потоковой обработки больших данных позволяет достичь высокой скорости анализа и получать аналитические отчеты по объектам мониторинга в течение нескольких минут после публикации информации.

Для обеспечения полноты поиска объектов TASLIMAN использует возможности семантического анализа технологии Texterra, которая позволяет находить упоминания объектов с учетом специфики языка, используемого для написания комментариев (сетевой сленг, хэштэги, случайные и преднамеренные ошибки). Texterra также позволяет анализировать мнения пользователей по отношению к объектам и их атрибутам (например, понимать, что человек выражает негативное мнение об удобстве устройства, но при этом хвалит экран).

Для технологии TALISMAN также разработаны инструменты, позволяющие фильтровать спам, сообщения ботов, определять негативные эмоции по отношению к другим участникам дискуссии.

Рисунок 1. Граф коммуникативного взаимодействия пользователей Facebook в обсуждении отключения электричества в Крыму 30 ноября 2015. Вершины обозначают пользователей, ориентированные связи – направление распространения информации. Цветом обозначаются роли вершин: желтый - первоисточник, красный - лидер мнений, синий - распространитель, зеленый - читатель.

TALISMAN. Технология анализа социальных медиа-сервисов

Наиболее важными характеристиками систем мониторинга являются скорость и полнота. Технология TALISMAN позволяет строить решения, превосходящие аналоги по обоим параметрам. Использование систем потоковой обработки больших данных позволяет достичь высокой скорости анализа и получать аналитические отчеты по объектам мониторинга в течение нескольких минут после публикации информации.

Для обеспечения полноты поиска объектов TASLIMAN использует возможности семантического анализа технологии Texterra, которая позволяет находить упоминания объектов с учетом специфики языка, используемого для написания комментариев (сетевой сленг, хэштэги, случайные и преднамеренные ошибки). Texterra также позволяет анализировать мнения пользователей по отношению к объектам и их атрибутам (например, понимать, что человек выражает негативное мнение об удобстве устройства, но при этом хвалит экран).

Для технологии TALISMAN также разработаны инструменты, позволяющие фильтровать спам, сообщения ботов, определять негативные эмоции по отношению к другим участникам дискуссии.

Восстановление неполной или искаженной информации профилей пользователей

В системах интернет-маркетинга и рекомендаций особую важность представляет определение социо-демографических атрибутов пользователя для таргетированного продвижения товаров и услуг среди целевой аудитории. Однако при заполнении своего профиля в социальной сети пользователи зачастую по ошибке или преднамеренно не заполняют некоторые поля либо дают ложную информацию о фактах своей биографии, интересах и предпочтениях. Кроме того, пользовательский профиль часто ограничен набором базовых атрибутов (имя, пол), недостаточным для решения многих задач, предполагающих персонализацию результатов.

Для решения проблемы определения значений пользовательских атрибутов в технологии TALISMAN применяются современные методы машинного обучения, использующие в качестве признаков социальные связи, сообщения и другую доступную информацию о пользователях (лайки, репосты, подписки). Для заданного аккаунта технология позволяет определять пол, возраст, семейное положение, уровень образования, религиозные и политические взгляды, место проживания, даже если они не были указаны пользователем явно. Кроме того, используемые методы не полагаются на указанные пользователем значения атрибутов, что позволяет выявить неверно указанные значения, а также пользователей, чье поведение не соответствует информации, указанной в профиле.

Поиск неявных сообществ пользователей на основе анализа социальных связей

Естественным свойством человеческого общества является тенденция к объединению в различные сообщества. Аналогичная картина наблюдается в социальных сетях, где пользователи объединяются либо явно, используя средства сети для создания групп и взаимодействия внутри них, либо неявно, устанавливая связи на основе похожих интересов, ролей, социальных кругов и т.д.

Поиск сообществ пользователей является важным инструментом изучения и анализа социальных сетей, позволяющим исследовать модульную организацию сети. Знания о структуре сообществ успешно применяются для предсказания связей и атрибутов пользователей, расчёта близости пользователей в социальном графе, оптимизации потоков данных в социальной сети, разработке систем рекомендаций, фильтрации спама и в других приложениях.

Частью технологии TALISMAN является набор методов поиска неявных сообществ пользователей социальных сетей на основе социальных связей между ними. Эти методы позволяют искать сообщества как среди непосредственных друзей пользователя, так и в масштабе всей социальной сети.

Рисунок 2. Граф эго-сети пользователя с выделенными сообществами (два основных выделены синим и зеленым цветом).

TALISMAN. Технология анализа социальных медиа-сервисов

Идентификация пользователей

Одной из фундаментальных проблем при использовании социальной информации о пользователе является её фрагментированность среди множества онлайновых социальных сетей, поскольку для активных пользователей Интернет типично иметь несколько профилей в различных социальных сетях. Обнаружение аккаунтов, принадлежащих одному человеку, в нескольких социальных сетях, позволяет получить более полный социальный граф, что может быть полезно во многих задачах, таких как информационный поиск, интернет-реклама, рекомендательные системы и т.д.

Был разработан метод решения задачи идентификации пользователей различных социальных сетей, которая сводится к поиску различных вариантов виртуальных личностей одного и того же пользователя в нескольких социальных сетях. На основе графической вероятностной модели условного случайного поля была разработана оригинальная модель, основанная на похожести виртуальных личностей пользователей по атрибутам их профилей и связям с другими пользователями.

Разработанный метод использует социальные связи обеих рассматриваемых социальных сетей путем сравнения оригинальных списков контактов, естественным образом комбинируя их с информацией атрибутов профилей, благодаря чему лишен многих недостатков существующих методов идентификации пользователей.

Исполнитель

Информационные системы

Перейти к списку всех проектов