Новости ИСП РАН


Новости ИСП РАН

10 Февраля, 2017

Технология многоязычного интеллектуального анализа текста «Текстерра»

С самого начала, с момента, когда интернет стал действительно глобальной сетью, связывающей миллионы пользовательских компьютеров, отличительной чертой его была анонимность пользователей. Возможность скрывать свое имя за ником, оперировать не одним аккаунтом, а целым «парком» виртуальных личностей, размещать и распространять практически любую информацию, стала почвой для развития целой отрасли в журналистике и public relations, громадного набора специфических рекламных и PR-технологий.

Однако спустя четверть века эра анонимности подходит к концу. Технологии анализа больших объемов данных, представленные в декабре 2016 года на Первой открытой конференции ИСП РАН, наносят по этой эпохе удар, который может оказаться смертельным.

Что не учел пророк интернет-эры

В 1974 году, мечтая о том, каким станет мир через полвека, академик Сахаров написал: «В перспективе, быть может, позднее, чем через 50 лет, я предполагаю создание всемирной информационной системы (ВИС), которая сделает доступным для каждого в любую минуту содержание любой книги, когда-либо и где-либо опубликованной, содержание любой статьи, получение любой справки. ВИС должна включать индивидуальные миниатюрные запросные приемники-передатчики, диспетчерские пункты, управляющие потоками информации, каналы связи, включающие тысячи искусственных спутников связи, кабельные и лазерные линии. Даже частичное осуществление ВИС окажет глубокое воздействие на жизнь каждого человека, на его досуг, на его интеллектуальное и художественное развитие. В отличие от телевизора, который является главным источником информации многих современников, ВИС будет предоставлять каждому максимальную свободу в выборе информации и требовать индивидуальной активности».

Описание ныне существующей глобальной информационной сети удалось ему очень неплохо, что позволяет по праву включать его имя в список «пророков интернет-эры». Однако вэтом пророчестве не было учтено одно – бесконтрольное распространение информации. Информационные потоки сегодня настолько мощны и велики, что вычленить из них необходимое подчас не представляется возможным. А объем информации, фальсифицированной и откровенно ложной, в этих потоках просто непредсказуем.

Первый информационный вброс был зафиксирован в середине 1980-х, в разгар холодной войны. 1 апреля 1984 года в предшествовавшей интернету сети Usenet было опубликовано обращение генерального секретаря КПСС Константина Черненко, в котором, в частности, шла речь о присоединении СССР к американским информационным сетям. «Причина нашего присоединения к сети – это формирование дискуссионной площадки с американскими и европейскими народами, чтобы продемонстрировать им наши усилия подостижению мирного сосуществования между ними и советским народом, – говорилось в тексте. – Теперь же давайте откроем бутылку водки и отметим наше появление в этой сети. Ваше здоровье!»

«Текстерра» – технология многоязычного интеллектуального анализа текста

Этот вброс вызвал среди американских пользователей сети вполне ощутимую панику и даже спровоцировал скандал в СМИ. Впрочем, его автор недолго оставался анонимом. В том, что это всего лишь придуманный им первоапрельский розыгрыш, пару недель спустя признался Пит Биртема, один из первопроходцев интернета, сотрудник голландского Центра математики и информатики. Однако факт остается фактом: вброшенной информации поверили, восприняли ее всерьез. Шутка ввела в заблуждение всю Америку.

С той поры информационные вбросы стали одним из главных бичей глобальной сети. Анонимность источников, возможность многократной репликации информационных массивов на различных ресурсах предоставляют сегодня фантастические возможности для распространения любых сведений и даже, как показывает совсем недавняя история, длякоординации действий повстанцев и террористов. Отследить путь того или иного вброса, вычислить его источник, выстроить «дерево распространения информации» до последнего времени удавалось далеко не всегда. И в любом случае эта работа была трудоемкой и затратной. Не меньше сложностей возникало и с установлением личности автора того илииного вброса либо фейка.

На каждое действие есть противодействие

Для анализа текстов социальных сетей Институтом системного программирования РАН была разработана «Текстерра» – технология многоязычного интеллектуального анализа текста. В ее основе – программный комплекс, способный накапливать и анализировать информацию, устанавливать взаимосвязь между использованием тех или иных лексических схем.

В качестве основного источника информации «Текстерра» использует ссылочный массив Википедии, выстраивая граф семантической связанности описанных на этом ресурсе объектов.

Кроме того, «Текстерра» позволяет извлекать знания из ресурсов MediaWiki и Linked Data, а также расширять базу знаний концептами, описанными в произвольных текстовых документах, используя оригинальные методы извлечения информации. В результате в распоряжении системы оказывается семантический граф с более чем пятью миллионами узлов, на основании которого и анализируются значения терминов и отношений между ними в текстовых документах.

Проще говоря, программа способна составить анализ текста, опираясь на объем понятий и терминов, почти на порядок превышающий по объему багаж знаний, зафиксированный вБританской энциклопедии, а если его будет не хватать – расширить свою базу данных.

Изначально технология служит основой для решения задач, базирующихся на интеллектуальном анализе текстов, включая создание семантических поисковых систем, разработку вопросно-ответных систем, автоматическое реферирование и аннотирование, создание диалоговых систем и так далее. Но одной из ее функций является анализ текстовых сообщений в социальных сетях и на форумах.

Используя «Текстерру», можно вычислить лексически сходные тексты, принадлежащие перу одного автора или написанные по некоему базовому лекалу, а потому содержащие сходные семантические конструкции, и таким образом выявить структуру информационного вброса.

Причем сделать это очень быстро: при создании технологии особое внимание уделялось не только качеству, но и производительности, так что в настоящее время «Текстерра» – один из самых быстрых инструментов такого рода. Программный комплекс поддерживает английский, русский и корейский языки, также систему можно быстро адаптировать для работы с другими языками.

Разработку технологии ИСП РАН начал в 2007 году совместно с компанией Hewlett Packard, затем в 2010-2013 годах развитие технологии проводилось в рамках долгосрочного сотрудничества с компанией Samsung, а сегодня «Текстерра» – ключевой компонент платформы анализа мнений пользователей в сети Интернет. Интерфейс «Текстерры» уже сегодня доступен на сайте ИСП РАН.

Другая же перспективная разработка ИСП РАН – система «Талисман» – позволяет отследить и выделить фиктивные аккаунты, служащие для распространения недостоверной информации, спама, имитации массовой активности – ботов.

Боты сегодня – это уже не просто отдельные фиктивные профили в социальных сетях, а целые конгломераты – ботнеты, связанные между собой «социальными связями», вписанные в группы и сообщества реальных пользователей сети Интернет. Современные боты подчас производят более чем реальное впечатление живых людей, используя чужие фотографии, специально разработанные диалоговые программы для генерации текстов сообщений.

Из-за их способности к адаптации проблема обнаружения ботов остается постоянно актуальной. Новые методы их поиска продолжают разрабатываться, но обычно разработчики просто не успевают за эволюцией интернет-фейков. Тем не менее сегодня в ИСП РАН разработан новый метод, с помощью которого можно с большой долей вероятности отличить самого «продвинутого» бота от живого пользователя сети. В ее основе лежат анализ социальных сетей, а точнее, анализ профилей и социальных связей их пользователей исовременные методы машинного обучения.

На основе данных профилей социальных сетей выстраивается социальный граф, в котором узлы соответствуют пользователям и сообществам, а ребра – отношениям дружбы иподпискам. Посредством распространения в нем социальных меток определяются такие демографические атрибуты, как возраст пользователя, а также семейное положение, уровень образования и так далее. Если значения тех или иных атрибутов не вписываются в создаваемый программным комплексом алгоритм, можно с серьезной долей уверенности говорить о том, что выпадающий из схемы профиль социальной сети – фейк. Ну а дальше приходит на помощь «Текстерра», позволяющая вычислить множества фейков, созданных одной рукой либо ведущихся по одному лекалу-методичке.

Эта же технология построения социальных графов позволяет оперировать и неполными или намеренно искаженными данными, указанными в профилях, вычислять демографические атрибуты отдельных профилей и оперировать их массивами. По распространению меток, по графу друзей и подписок метод предсказывает незаполненное иликорректирует неверно заполненное значение атрибута из профиля пользователя.

Эта функция необходима в первую очередь как маркетинговый инструмент. Поскольку информация о пользователях социальных сетей зачастую указывается ими не полностью илинекорректно, использовать ее для маркетинговых, социологических или демографических исследований затруднительно. Если же демографические атрибуты пользователей будут выстроены в соответствующие графы, это позволит как минимум фильтровать целевую аудиторию рекомендуемых товаров и услуг, а как максимум – проводить возможно более точный анализ демографического, социального или географического профиля интернет-сообществ, вычислять целевую аудиторию информационных кампаний в интернете.

Мало того, технология «Талисман», разработанная в ИСП РАН, позволяет на основании анализа неполных данных, с использованием информации из социальных сетей вычислить даже место проживания пользователя, его принадлежность к определенному социальному слою, приверженность той или иной идеологии и другую полезную информацию.

Сегодня обе эти технологии продолжают дорабатываться и совершенствоваться, обрастать новым функционалом. Уже то, что они позволяют делать сейчас, производит впечатление технологий будущего, сюжетного элемента научно-фантастического фильма. Можно представить себе, во что они вырастут через год-два.

Похоже, эпохе анонимности интернета, поре, когда любая информация могла быть вброшена в сеть безнаказанно и без проверки, приходит конец. Интернет-анонимность, бывшая любимым фетишем сетевых анархистов, доживает последние если не дни, то годы. При этом такой «конец детства» не будет репрессивным, а обитателям сети не грозят какие-токары со стороны властей предержащих, вынуждающие раскрывать их инкогнито. Напротив, интернет-анархию погубит ее собственный главный принцип – неконтролируемый доступ к информации. Как только технологии, о которых шла речь в этой статье, станут общедоступными, ситуация изменится сама собой.

Источник: журнал БИТ


Все новости