Задача классификации относится к классу задач «обучение с учителем», которая предполагает наличие набора размеченных данных для тренировки модели. Наличие размеченного датасета означает, что каждому примеру в обучающем наборе соответствует ответ, который должен получить алгоритм. В задачах классификации алгоритм предсказывает дискретные значения, соответствующие номерам классов, к которым принадлежат объекты. В обучающем датасете каждый объект будет иметь соответствующую метку.
Создание такого датасета осуществляется в разделе «Данные» и включает в себя следующие этапы:
- Создание папки, в которой будут собраны все данные для классификации.
- Создание двух подпапок. Они необходимы для того, чтобы в одну помещать все файлы для обучения модели, а в другую – для ее валидации. Например, это могут быть подпапки «Train» и «Test».
- В каждой из подпапок создаются классы. Это тоже папки, названия которых должны отражать содержимое класса. Например, для задачи классификации изображений, это могут быть: машины, самолеты, поезда; для задач классификации текстов: Пушкин, Лермонтов и т.д.
- Каждая папка наполняется файлами: изображениями или текстовыми документами, соответствующими названию класса.
- И тестовый и валидационный датасет должны содержать папки с одинаковыми названиями, система будет использовать их для обучения и валидации.
- Подпапкам «Train» и «Test» присваивается метка «Классификации», после этого датасет будет доступен для использования при построении модели.
Для решения задач классификации всегда создаётся два датасета:
- Обучающий датасет – всегда содержит в себе большее количество файлов, на обучающем датасете ИИ учится определять классы.
- Валидационный датасет – всегда содержит меньшее количетсво файлов, на валидационном датасете платформа проверяет качество обучения.