Описание: данный сценарий представляет собой пример работы с платформой, когда задачей является анализ временного ряда и построение модели прогнозирования возникновения лесного пожара с помощью применения функции классификации.
- Загрузка входных данных:
- В левой части главного окна на панели вкладок Системы открыть вкладку «Данные».
- На открывшейся странице «Данные» нажать кнопку .
- В разделе «Данные» появится папка «Лесные пожары», необходимо зайти в неё и нажать на кнопку «Загрузить» на верхней панели:
- В открывшемся окне нажать на кнопку «Выбрать файлы» и указать путь к заранее подготовленному файлу fires_dataset_correct.csv, в котором содержатся данные датчиков погодных условий, зафиксированные на определенной территории за тестовый период времени. Данные на датчиках фиксируются через определенные равные промежутки времени.
Второй вариант загрузки файла: перенести файлы в этот раздел по технологии «drag n drop».
Выбранные файлы отобразятся в нижней части окна загрузки:
- Нажать на кнопку «Загрузить». Файл с входными данными отобразится в папке:
- Создание новой рабочей области:
- Перейти в пункт меню системы Моделирование –> Рабочая область. На панели инструментов блок-схемы нажать кнопку «Создание рабочей области» (кнопка ):
- В открывшейся форме ввести название новой рабочей области «ЦИЭКС» (для Центра исследований экстремальных ситуаций) и нажать кнопку «Создать»:
На панели инструментов отобразится название созданной рабочей области:
- Добавление элемента «Запуск»:
- На панели инструментов блок-схемы нажать кнопку «Добавить элемент» (кнопка ).
- В открывшейся библиотеке графических элементов выбрать элемент «Запуск» (кнопка ):
Выбор элемента для добавления на рабочую область из библиотеки графических элементов BPMN 2.0
На рабочей области появится элемент «Запуск».
- Добавление и настройка элемента «Источник данных». Чтобы загрузить данные с погодными условиями, необходимо добавить на рабочую область элемент «Источник данных» (кнопка ):
Параметры элемента можно скрыть или развернуть нажатием кнопки «Параметры». Слева на элементе отображается одна точка входа, а справа – две точки выхода, которые предназначены для соединения с другими элементами блок-схемы.
Параметр «Журнал событий» содержит информацию обо всех преобразованиях с данными, которые выполняются в текущем блоке пайплайна. Это позволяет сохранить историю преобразований над данными, и при необходимости выполнить обратное преобразование.
- Открытие настроек элемента. На элементе «Источник данных» нажать на кнопку . При настройке текущего элемента он выделяется синей рамкой. Откроется панель настроек элемента:
- Выбор функции элемента. По умолчанию для элемента уже выбрана функция: раздел «Загрузка данных» -> функция «Загрузка табличных данных».
- Выбор данных для загрузки в блок-схему. В разделе «Выберите файл» выбрать из списка файл, загруженный в Систему в шаге 1 «fires_dataset_correct.scv». Для этого – в списке выбора найдите папку «Лесные пожары», перейдите в неё и кликните на файл. Внизу окна должно отобразиться его название:
- Сохранение настроек элемента. На панели настроек элемента нажать на кнопку «Сохранить» (далее сохранение настроек элемента предполагается по умолчанию).
- Ввод названия элемента. Чтобы задать название элемента нужно дважды щелкнуть левой кнопкой мыши на название элемента в рабочей области, и ввести нужное название в поле с названием, доступным для редактирования:
Чтобы новое название сохранилось достаточно щелкнуть мышью в любом месте на рабочей области (далее предполагается, что пользователь по умолчанию вводит названия блоков).
- Установка соединений. Соединить выходную точку элемента «Запуск» с входной точкой элемента «Источник данных» с помощью левой кнопка мыши:
- Добавление и настройка элемента «Процесс». Чтобы в загруженном датасете выделить признаки и целевые признаки нужно добавить на рабочую область элемент «Процесс» и настроить его:
- На панели свойств элемента выбрать из списка функцию: тип функции «Анализ данных» -> функция «Выбор признаков и целевых признаков».
В разделе «Параметры» отобразятся поля:
- В поле «Признаки» ввести (полностью вместе с квадратными скобками):
[‘T’, ‘P’, ‘U’, ‘Ff’, ‘Td’, ‘RRR’, ‘DD_Ветер_с_востока’, ‘DD_Ветер_с_востоко_северо_востока’, ‘DD_Ветер_с_востоко_юго_востока’, ‘DD_Ветер_с_запада’, ‘DD_Ветер_с_западо_северо_запада’, ‘DD_Ветер_с_западо_юго_запада’, ‘DD_Ветер_с_севера’, ‘DD_Ветер_с_северо_востока’, ‘DD_Ветер_с_северо_запада’, ‘DD_Ветер_с_северо_северо_востока’, ‘DD_Ветер_с_северо_северо_запада’, ‘DD_Ветер_с_юга’, ‘DD_Ветер_с_юго_востока’, ‘DD_Ветер_с_юго_запада’, ‘DD_Ветер_с_юго_юго_востока’, ‘DD_Ветер_с_юго_юго_запада’, ‘DD_Штиль_безветрие’, ‘N_10%_или_менее_но_не_0’, ‘N_100%’, ‘N_20_30%’, ‘N_40%’, ‘N_60%’, ‘N_70_80%’, ‘N_90_или_более_но_не_100%’, ‘N_Небо_не_видно_из_за_тумана_и_других_метеорологических_явлений’, ‘N_Облаков_нет’, ‘day’, ‘month’, ‘N_50%’]. - В поле «Целевые признаки» ввести: [‘area’].
- На панели настроек элемента нажать на кнопку «Сохранить».
- Задать название элемента «Выбор признаков».
- Соединить блоки:
- Разделение входного датасета на обучающую и тестовую выборки. Добавить на рабочую область элемент «Процесс» и настроить его.
- Выбрать из списка функцию: раздел «Машинное обучение» -> функция «Разделение датасета на обучающую и тестовую выборки»:
- Указать долю тестовой выборки – 0.2. Так 80% данных будут использованы для обучения модели, и 20% – для тестирования.
- Установить галочку в поле «Перемешивать наблюдения перед разделением».
- Установить галочку в поле «Разделять с учетом меток классов».
- Задать название элемента «Сплит датасета».
- Соединить с предыдущими элементами:
- Стандартизация признаков. Добавить на рабочую область элемент «Процесс» и настроить его:
- Выбрать из списка функцию: раздел «Препроцессинг -> функция «Стандартизация»:
Метод предназначен для возможности замены трансформируемых столбцов и добавления новых столбцов в датасет. При этом преобразования над признаками и целевыми признаками проводятся отдельно.
- В разделе «Параметры» установить галочку в поле «Замена значений столбцов».
- В поле «Флаг признака» выбрать из списка значение «2. Признаки».
- Задать название элемента «Стандартизация».
- Установить соединения:
- Запуск алгоритма бинарной классификации. Добавить на рабочую область и настроить элемент «Процесс»:
- Выбрать из списка функцию: раздел «Классификация» -> функция «Модель XGBClassifier»:
Чтобы предсказать к какому классу относится наблюдение используется метод дерева решений, для которого указываются параметры:
- В поле «Глубина дерева» ввести значение: [2,5]. Алгоритм обучения модели будет остановлен после достижения указанного числа разбиений в ветвях дерева решений.
- В поле «Количество базовых моделей» ввести значение: [50,100].
- В поле «Порог классификации» ввести значение 0.5 (универсальное значение) – порог классификации, который определяет принадлежность измерения к положительному классу.
- Установить галочку рядом с полем «Флаг возврата вероятности при прогнозе».
- Установить галочку рядом с полем «Оптимизация гиперпараметров» – флаг поиска лучших гиперпараметров (устанавливается, если есть выбор из нескольких значений для гиперпараметров).
- В поле «Метрика для оптимизации» выбрать из списка значение «5.AUC_ROC».
- В поле «Количество фолдов для оптимизации» указать значение 5.
- Ввести название элемента «Классификация».
- Установить соединения:
- Валидация модели на тестовой выборке. Добавить на рабочую область и настроить элемент «Процесс»:
- Выбрать из списка функцию: раздел «Машинное обучение» -> функция «Валидация модели»:
- В разделе «Параметры» -> в поле «Метрика» выбрать значение «6. F1» – метрика для валидации. Анализируется связь между выбранными погодными условиями и целевым признаком. Так оценивается вероятность возникновения лесного пожара по всем показателям. Функция возвращает величину вероятности в виде значения от 0 до 1.
- Ввести название блока: «Валидация».
- Установить соединения с предыдущим элементом «Классификация» и элементом «Сплит датасета», как показано в Приложении 4. Обратите внимание! Элементы в блок-схеме могут соединяться не только последовательно
- Сохранение модели. Добавить на рабочую область и настроить элемент «Процесс»:
- Выбрать из списка функцию: «Управление моделями» -> функция «Сохранение модели»:
- В строке «Название модели» ввести название модели «Лесные пожары».
- Ввести название элемента «Сохранение модели».
- Установить соединения:
- Запуск пайплайна. Чтобы запустить сборку пайплайна нужно нажать на кнопку на первом элементе «Запуск» собранной блок-схемы. При этом отображение элемента «Запуск» изменится:
Если активировать параметр «Сформировать отчет», в результате запуска пайплайна будет создан отчет.
Блоки пайплайна последовательно запускаются. При обработке на элементе загорается индикатор оранжевого цвета, а уже обработанный блок отмечается зеленым индикатором:
- Визуализация результатов. После того как все элементы схемы будут успешно обработаны, на панели инструментов появляются кнопки:
Последовательно нажимая на кнопки визуализации, можно отобразить на рабочей области следующую информацию:
- Графики пайплайна. Для этого пользователь нажимает кнопку и выбирает график «Матрица ошибок для бинарной классификации», в котором отображается результат работы обученной модели на тестовой выборке данных:
При чтении таблицы слева направо и сверху вниз:
- в первой ячейке отображается количество наблюдений, которые модель предсказала как нормальные данные (значение флага аномалий равно 0), и это подтвердилось;
- во второй ячейке наблюдения, которые модель предсказала как аномалии (значение флага аномалий равно 1), а они оказались нормальными;
- в третьей ячейке наблюдения, которые модель предсказала нормальными, а они оказались аномалиями:
- в четвертой ячейке наблюдения, которые модель предсказала как аномалии, и это подтвердилось.
- Операции с блоками визуализации. Для перемещения блока с визуализацией по рабочей области блок зажимается левой кнопкой мыши и перемещается в нужное место. Чтобы зафиксировать блок в определенном месте рабочей области необходимо нажать на блоке правую кнопку мыши, и выбрать действие «Закрепить»:
Соответственно чтобы отменить фиксацию необходимо выполнить обратное действие «Открепить».
Для удаления блока используется действие «Удалить».
- Таблицы. Нажимается кнопка , и последовательно открываются таблицы из списка:
Первая таблица, со значением метрики F1 (точностью/долей правильных ответов при предсказании моделью):
Вторая таблица, с указанием количества правильных и неправильных ответов модели в разрезе предсказаний наступления интересующего события:
- Описание модели. Для этого нажимается кнопка :
- Проверка сохранения модели. Для этого перейти в пункт меню Модели. Убедиться, что в список сохраненных моделей добавилась новая модель.
- Проверка создания отчета. Если в блоке «Запуск» был активирован движок создания отчета, в разделе «Отчеты» создается отчет.