Семантический анализ текстов с использованием системы Texterra.


Семантический анализ текстов с использованием системы Texterra.

Авторы

Турдаков Д.Ю., Андрианов И.А., Астраханцев Н.А., Майоров В.Д., Недумов Я.Р., Сысоев А.А., Федоренко Д.Г.

Аннотация

Применение баз знаний, или онтологий, показало свою эффективность во многих приложениях, связанных с обработкой естественного языка, таких как извлечение информации, вопросно-ответные системы и информационный поиск. Использование баз знаний позволяет осуществить переход от отдельных слов к выражаемым ими понятиям, что, в свою очередь, сокращает влияние разреженности языка и многозначности лексических единиц.

Идея использования баз знаний для семантического анализа текстов лежит в основе проекта Texterra. Texterra представляет собой технологию для многоязычного анализа текстовых документов, которая основана на использовании знаний, извлекаемых из Веб-ресурсов и коллекций документов. Данная технология позволяет добиться высокой точности анализа при низких затратах на обучение и настройку.

Система Texterra предоставляет широкий набор инструментов для решения задач обработки текстов, включающий в себя как стандартные методы, например определение частей речи, так и оригинальные методы, основанные на использовании базы знаний. Кроме того, Texterra включает в себя инструменты для обработки неформальных пользовательских текстов, таких как сообщения социальных сетей.

Полный текст статьи в формате pdf

Ключевые слова

семантический анализ текстов, Википедия, базы знаний, семантические онтологии, Викификация

Издание

Тезисы доклада международной конференции по компьютерной лингвистике "Диалог". 2014 г.

Научная группа

Информационные системы

Все публикации за 2014 год Все публикации