Ферма данных: информационная система сбора, хранения и обработки неструктурированных данных из разнородных источников


Ферма данных: информационная система сбора, хранения и обработки неструктурированных данных из разнородных источников

Сергей Павлович ЛЕВАШКИН, Константин Николаевич ИВАНОВ, Сергей Владимирович КУШУКОВ

Аннотация

Представлена оригинальная информационная система «ферма данных». Сегодня успешное применение алгоритмов искусственного интеллекта, прежде всего глубокого обучения на основе нейронных сетей, практически полностью зависит от наличия данных. И чем больше объем этих данных, тем лучше результаты работы алгоритмов. Хорошо известны примеры таких алгоритмов от Facebook, Google, Microsoft, Yandex и др. Данные должны содержать как обучающую выборку, так и тестируемую. Причем, данные должны быть хорошего качества и обладать определенной структурой, в идеале быть размеченными, чтобы алгоритмы обучения работали адекватно. Это представляет серьезную проблему, требующую огромных вычислительных и человеческих ресурсов. Именно решению этой проблемы посвящена данная статья. На сегодня ферма данных представляет из себя довольно сложную информационную систему, построенную по модульному принципу, схожую с известным конструктором «Лего». Отдельными модулями системы являются различные современные алгоритмы, технологии и целые библиотеки искусственного интеллекта, а все вместе они призваны автоматизировать процесс получения и структурирования качественных больших данных в различных предметных областях. Система была протестирована на данных по COVID-19 в регионах России и странах мира. Кроме того, был разработан удобный интерфейс визуализации данных, собранных и обработанных на ферме. Это дает возможность проводить наглядные численные эксперименты компьютерного моделирования и сравнивать их с реальными данными, превращая ферму в интеллектуальную информационную систему поддержки принятия решений.

Ключевые слова

интеллектуальная информационная система, ферма данных, большие данные, обработка данных, визуализация данных, компьютерное моделирование

Издание

Труды Института системного программирования РАН, том 35, вып. 2, 2023, 57-72

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

Для цитирования

Сергей Павлович ЛЕВАШКИН, Константин Николаевич ИВАНОВ, Сергей Владимирович КУШУКОВ Ферма данных: информационная система сбора, хранения и обработки неструктурированных данных из разнородных источников. Труды Института системного программирования РАН, том 35, вып. 2, 2023, 57-72 .

Полный текст статьи в формате pdf Вернуться к содержанию тома