Knowledge base

Knowledge base

Close

Датасет для задач классификации

Задача классификации относится к классу задач «обучение с учителем», которая предполагает наличие набора размеченных данных для тренировки модели. Наличие размеченного датасета означает, что каждому примеру в обучающем наборе соответствует ответ, который должен получить алгоритм. В задачах классификации алгоритм предсказывает дискретные значения, соответствующие номерам классов, к которым принадлежат объекты. В обучающем датасете каждый объект будет иметь соответствующую метку. 

Создание такого датасета осуществляется в разделе «Данные» и включает в себя следующие этапы:

  1. Создание папки, в которой будут собраны все данные для классификации.
  2. Создание двух подпапок. Они необходимы для того, чтобы в одну помещать все файлы для обучения модели, а в другую – для ее валидации. Например, это могут быть подпапки «Train» и «Test».
  3. В каждой из подпапок создаются классы. Это тоже папки, названия которых должны отражать содержимое класса. Например, для задачи классификации изображений, это могут быть: машины, самолеты, поезда; для задач классификации текстов: Пушкин, Лермонтов и т.д.
  4. Каждая папка наполняется файлами: изображениями или текстовыми документами, соответствующими названию класса.
  5. И тестовый и валидационный датасет должны содержать папки с одинаковыми названиями, система будет использовать их для обучения и валидации.
  6. Подпапкам «Train» и «Test» присваивается метка «Классификации», после этого датасет будет доступен для использования при построении модели.

Для решения задач классификации всегда создаётся два датасета:

  • Обучающий датасет – всегда содержит в себе большее количество файлов, на обучающем датасете ИИ учится определять классы.
  • Валидационный датасет – всегда содержит меньшее количетсво файлов, на валидационном датасете платформа проверяет качество обучения.

In this article: