Группа «Загрузка данных» используется при использовании табличных и текстовых файлов, а также для загрузки датасетов для распознавания изображений или классификации. Также в данной группе можно выбрать загрузку данных из коннектора и загрузку модели.
Загрузка табличных данных
Данная функция преобразует загруженные табличные данные во временной ряд. При этом автоматически определяется формат файла (csv, txt, xls, xlsx), разделитель (символ в датасете с временным рядом, обозначающий деление на ячейки), размерность. Для ресемплирования использует агрегирующую функцию.
Параметры блока:
- Выбор ранее загруженного файла с отображением структуры папок в разделе «Данные». Для выбора файла нужно нажать на три точки в строке с его названием и кликнуть «Выбрать».
Загрузка изображений для object detection*
Функция предназначена для загрузки в Систему изображений ‘с метками’, с целью дальнейшего решения задачи компьютерного зрения – распознавания отмеченных объектов на новых данных (изображениях/видео).
Параметры блока:
- Группа обучающих изображений. Это группа разметки, содержащая файлы для обучения нейронной сети с ‘размеченными’ изображениями – на которых с помощью тегов отмечены объекты для распознавания.
- Группа валидационных изображений. Это группа разметки, содержащая файлы для валидации обученной нейронной сети, которая также содержит ‘размеченные’ данные. Здесь разметка будет использоваться для оценки качества модели – путем сравнения предсказуемого и фактического значения.
В списке будут отображаться только датасеты, созданные для задач распознавания объектов.
Информация в результате обработки блока:
В БД сохраняются загруженные датасеты, прошедшие предварительную обработку, и вместе с каждым датасетом дополнительно сохраняется файл label – файл разметки.
Загрузка изображений для классификации
Данная функция предназначена для загрузки изображений, принадлежащих к тем или иным классам, для дальнейшей классификации этих объектов на новых данных. При загрузке выполняется ресайз изображений – изменение (чаще всего уменьшение) размера изображений до заданного формата. Данные загружаются маленькими порциями, так называемыми мини-батчами (например, за один раз подается два изображения).
Параметры блока:
- Группа обучающих изображений. Выбор папки для обучения нейронной сети, которая должна содержать в себе подпапки с названиями классов объектов. Данные подпапки содержат изображения, принадлежащие этому классу. Например, это могут быть: «автомобили»,«поезда»,«самолеты».
- Группа тестовых изображений. Выбор папки для валидации обученной нейронной сети. Папка должна иметь такую же структуру, как и обучающая.
Подробно о создании датасета и загрузке данных, которые подаются в этот блок можно прочитать в разделе Датасет для задач классификации.
- Размер мини батча – количество изображений, которое за один раз подается на вход нейронной сети для её обучения. Рекомендуется устанавливать размер батча кратным 8. Чем меньше размер батча – тем дольше будут идти вычисления. При установке параметра важно учитывать оперативную память.
- Новая высота – изменение высоты изображения (используется для приведения всех изображений в датасете к одному размеру)
- Новая ширина – изменение ширины изображения (используется для приведения всех изображений в датасете к одному размеру)
Информация в результате обработки блока:
В БД сохраняются каталоги датасета обучения и валидации, прошедшие предварительную обработку перед загрузкой.
Загрузка табличных данных из коннектора
Данная функция предназначена для подключения к внешним источникам данным, например к базам данных (БД) «ClickHouse» или «Postgresql». При этом используется сущность «Коннектор», в которой прописываются настройки для подключения к этим базам данных. Подробнее о возможных интеграциях написано здесь.
Важно – подключение выполняется к БД в её состоянии на текущий момент времени.
Параметры блока:
- Выберите коннектор. Из списка выбирается коннектор – ранее созданный тип соединения с определенной базой данных. Подробно о создании коннекторов можно прочитать в разделе Соединения.
- Сохранить датасет. Данный параметр позволяет сформировать бэкап таблицы внешней БД. Если параметр деактивирован, выполняется подключение к внешней БД в её состоянии на текущий момент времени, без дополнительного формирования датасета во внутренней БД.
- Название файла. Указывается название файла бэкапа таблицы для сохранения во внутренней БД.
- Онлайн данные. Если идет получение данных в режиме реального времени данный параметр необходимо активировать.
Загрузка модели
Функция предназначена для использования в качестве источника данных ранее обученной модели. При этом система при обработке блок-схемы может применять ранее полученные знания для построения прогнозов. Подробнее о создании модели можно прочитать в разделе Модели.
Параметры блока:
- Выберите модель. Из списка ранее сохраненных модель есть возможность выбрать необходимую, соответствующую целям решаемой задачи. Для сохранения модели обязательно добавить соответствующий блок Сохранение модели.
Загрузка текстовых файлов для классификации
Данная функция предназначена для загрузки текстов, принадлежащих к тем или иным классам, для обучения нейронной сети определять эти классы на новых данных. Функция обязательно используется при решении задач классификации текстов.
Параметры блока:
- Группа обучающих текстов. Выбор папки для обучения нейронной сети, которая должна содержать в себе подпапки с названиями классов объектов. Данные подпапки содержат тексты, принадлежащие определенному классу. Например, это могут быть: «Пушкин»,«Лермонтов»,«Толстой».
- Группа тестовых текстов. Выбор папки для валидации обученной нейронной сети. Папка должна иметь такую же структуру, как и обучающая.
- Группа текстов для классификации. Здесь можно сразу выбрать файл или папку с файлами, которые необходимо классифицировать с применением обученной модели.
Загрузка текстовых файлов для кластеризации
Функция обязательно используется при решении задач кластеризации текстов, когда необходимо определить кластеры к которым принадлежат тексты для обучения ИИ распознавать эти кластеры на новой порции данных.
Параметры блока:
- Группа текстов для кластеризации. Выбор файла, содержащего однотипные данные, подлежащие разделению на кластеры.
Загрузка графа
Функция предназначена для загрузки и дальнейшего преобразования файлов с форматом .graphml в переменную graph_out с типом данных networkx.MultiDiGraph, предназначенных для решения задач с применением теории графов.
Граф — это геометрическая фигура, которая состоит из точек и линий, которые их соединяют. Точки называют вершинами графа, а линии — ребрами. Графы имеют очень широкое применение: с их помощью выбирают наиболее выгодное расположение зданий, графами представлены схемы метро, маршруты, схемы игр, блок схемы процессов и т д.
Параметры блока:
- Выберите файл с графом. Выбирается ранее загруженный в систему файл в формате .graphml.