Система поддержки создания наборов данных Colba


Скачать сборник технологий

Система поддержки создания наборов данных Colba

Colba — система поддержки создания аннотированных наборов данных для машинного обучения с учителем. Позволяет организатору аннотирования гибко итеративно настраивать постановку задачи для экспертов-аннотаторов, автоматически оптимальным образом распределять задачи и отслеживать качество получаемых аннотаций.

Особенности и преимущества

Colba — инновационная система, созданная с целью оптимизации процесса подготовки аннотированных наборов данных для сложных предметных областей, где проблематично использовать краудсорсинг. Colba захватывает весь процесс подготовки набора данных от выбора варианта постановки задачи до массового аннотирования.

Colba – это:

  • Автоматическое распределение задач аннотирования по экспертам:
    • простое равномерное;
    • с учётом согласия;
    • с выявлением научных школ.
  • Богатый набор доступных методов подсчета согласия между экспертами:
    • Cohen Kappa и Fleiss' kappa;
    • Krippendorff's alpha;
    • Precision, Recall, F1;
    • IoU.
  • Итеративный процесс уточнения постановки задачи.
  • Широкий выбор поддерживаемых видов постановки задачи и типов входных данных:
    • бинарная классификация;
    • многоклассовая классификация;
    • многоклассовая многометочная классификация;
    • NERC;
    • сегментация изображений.
  • Возможность сфокусированного отбора элементов данных для первоочередного аннотирования.
  • Интеграция с привычными экспертам системами разметки.

Для кого предназначена Colba?

Специалисты по машинному обучению, которым нужны данные для решения прикладной задачи.

Опыт внедрения

Colba входит в состав платформы НЦМУ для интеллектуального анализа медицинских данных (разрабатывается в ИСП РАН).

Схема работы

Colba

Перейти к списку всех технологий