Семантический анализ текстов с использованием системы Texterra.
Авторы
Аннотация
Применение баз знаний, или онтологий, показало свою эффективность во многих приложениях, связанных с обработкой естественного языка, таких как извлечение информации, вопросно-ответные системы и информационный поиск. Использование баз знаний позволяет осуществить переход от отдельных слов к выражаемым ими понятиям, что, в свою очередь, сокращает влияние разреженности языка и многозначности лексических единиц.
Идея использования баз знаний для семантического анализа текстов лежит в основе проекта Texterra. Texterra представляет собой технологию для многоязычного анализа текстовых документов, которая основана на использовании знаний, извлекаемых из Веб-ресурсов и коллекций документов. Данная технология позволяет добиться высокой точности анализа при низких затратах на обучение и настройку.
Система Texterra предоставляет широкий набор инструментов для решения задач обработки текстов, включающий в себя как стандартные методы, например определение частей речи, так и оригинальные методы, основанные на использовании базы знаний. Кроме того, Texterra включает в себя инструменты для обработки неформальных пользовательских текстов, таких как сообщения социальных сетей.
Полный текст статьи в формате pdfКлючевые слова
Издание
Тезисы доклада международной конференции по компьютерной лингвистике "Диалог". 2014 г.
Научная группа
Все публикации за 2014 год
