Сборники трудов ИСП РАН


Активное обучение и краудсорсинг: обзор методов оптимизации разметки данных

Гилязев Р.А. (ИСП РАН, Москва, Россия; МФТИ, Московская. обл., Россия)
Турдаков Д.Ю. (ИСП РАН, Москва, Россия; МГУ, Москва, Россия; ВШЭ, Москва, Россия)

Аннотация

Качественные аннотированные коллекции являются ключевым элементом при построении систем, использующих машинное обучение. В большинстве случаев создание таких коллекций предполагает привлечение к разметке данных людей, а сам процесс является дорогостоящим и утомительным для аннотаторов. Для оптимизации этого процесса был предложен ряд методов, использующих активное обучение и краудсорсинг. В статье приводится обзор существующих подходов, обсуждается их комбинированное применения, а также описываются существующие программные системы, предназначенные для упрощения процесса разметки данных.

Ключевые слова

активное обучение; краудсорсинг; аннотация корпусов; крауд-вычисления

Издание

Труды Института системного программирования РАН, том 30, вып. 2, 2018, стр. 215-250.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2018-30(2)-11

Полный текст статьи в формате pdf Вернуться к содержанию тома