Knowledge base

Knowledge base

Close

Обучение модели прогнозирования лесного пожара

Описание: данный сценарий представляет собой пример работы с платформой, когда задачей является анализ временного ряда и построение модели прогнозирования возникновения лесного пожара с помощью применения функции классификации.

  1. Загрузка входных данных:
    1. В левой части главного окна на панели вкладок Системы открыть вкладку «Данные».
    2. На открывшейся странице «Данные» нажать кнопку .
  1. В разделе «Данные» появится папка «Лесные пожары», необходимо зайти в неё и нажать на кнопку «Загрузить» на верхней панели:
  1. В открывшемся окне нажать на кнопку «Выбрать файлы» и указать путь к заранее подготовленному файлу fires_dataset_correct.csv, в котором содержатся данные датчиков погодных условий, зафиксированные на определенной территории за тестовый период времени. Данные на датчиках фиксируются через определенные равные промежутки времени. 

Второй вариант загрузки файла: перенести файлы в этот раздел по технологии «drag n drop».

Выбранные файлы отобразятся в нижней части окна загрузки:

  1. Нажать на кнопку «Загрузить». Файл с входными данными отобразится в папке:
  1. Создание новой рабочей области:
    1. Перейти в пункт меню системы Моделирование –> Рабочая область. На панели инструментов блок-схемы нажать кнопку «Создание рабочей области» (кнопка ):
  1. В открывшейся форме ввести название новой рабочей области «ЦИЭКС» (для Центра исследований экстремальных ситуаций) и нажать кнопку «Создать»:

На панели инструментов отобразится название созданной рабочей области:

  1.  Добавление элемента «Запуск»:
    1. На панели инструментов блок-схемы нажать кнопку «Добавить элемент» (кнопка ).
    2. В открывшейся библиотеке графических элементов выбрать элемент «Запуск» (кнопка ):

Выбор элемента для добавления на рабочую область из библиотеки графических элементов BPMN 2.0

На рабочей области появится элемент «Запуск».

  1. Добавление и настройка элемента «Источник данных». Чтобы загрузить данные с погодными условиями, необходимо добавить на рабочую область элемент «Источник данных» (кнопка ):

Параметры элемента можно скрыть или развернуть нажатием кнопки «Параметры». Слева на элементе отображается одна точка входа, а справа – две точки выхода, которые предназначены для соединения с другими элементами блок-схемы.

Параметр «Журнал событий» содержит информацию обо всех преобразованиях с данными, которые выполняются в текущем блоке пайплайна. Это позволяет сохранить историю преобразований над данными, и при необходимости выполнить обратное преобразование.

  1. Открытие настроек элемента. На элементе «Источник данных» нажать на кнопку . При настройке текущего элемента он выделяется синей рамкой. Откроется панель настроек элемента:

  1. Выбор функции элемента. По умолчанию для элемента уже выбрана функция: раздел «Загрузка данных» ->  функция «Загрузка табличных данных».
  2. Выбор данных для загрузки в блок-схему. В разделе «Выберите файл» выбрать из списка файл, загруженный в Систему в шаге 1 «fires_dataset_correct.scv». Для этого – в списке выбора найдите папку «Лесные пожары», перейдите в неё и кликните на файл. Внизу окна должно отобразиться его название:

  1. Сохранение настроек элемента. На панели настроек элемента нажать на кнопку «Сохранить» (далее сохранение настроек элемента предполагается по умолчанию).
  2. Ввод названия элемента. Чтобы задать название элемента нужно дважды щелкнуть левой кнопкой мыши на название элемента в рабочей области, и ввести нужное название в поле с названием, доступным для редактирования:

Чтобы новое название сохранилось достаточно щелкнуть мышью в любом месте на рабочей области (далее предполагается, что пользователь по умолчанию вводит названия блоков).

  1. Установка соединений. Соединить выходную точку элемента «Запуск» с входной точкой элемента «Источник данных» с помощью левой кнопка мыши:

  1. Добавление и настройка элемента «Процесс». Чтобы в загруженном датасете выделить признаки и целевые признаки нужно добавить на рабочую область элемент «Процесс» и настроить его:
    1. На панели свойств элемента выбрать из списка функцию: тип функции «Анализ данных» ->  функция «Выбор признаков и целевых признаков».

В разделе «Параметры» отобразятся поля:

  • В поле «Признаки» ввести (полностью вместе с квадратными скобками):
    [‘T’, ‘P’, ‘U’, ‘Ff’, ‘Td’, ‘RRR’, ‘DD_Ветер_с_востока’, ‘DD_Ветер_с_востоко_северо_востока’, ‘DD_Ветер_с_востоко_юго_востока’, ‘DD_Ветер_с_запада’, ‘DD_Ветер_с_западо_северо_запада’, ‘DD_Ветер_с_западо_юго_запада’, ‘DD_Ветер_с_севера’, ‘DD_Ветер_с_северо_востока’, ‘DD_Ветер_с_северо_запада’, ‘DD_Ветер_с_северо_северо_востока’, ‘DD_Ветер_с_северо_северо_запада’, ‘DD_Ветер_с_юга’, ‘DD_Ветер_с_юго_востока’, ‘DD_Ветер_с_юго_запада’, ‘DD_Ветер_с_юго_юго_востока’, ‘DD_Ветер_с_юго_юго_запада’, ‘DD_Штиль_безветрие’, ‘N_10%_или_менее_но_не_0’, ‘N_100%’, ‘N_20_30%’, ‘N_40%’, ‘N_60%’, ‘N_70_80%’, ‘N_90_или_более_но_не_100%’, ‘N_Небо_не_видно_из_за_тумана_и_других_метеорологических_явлений’, ‘N_Облаков_нет’, ‘day’, ‘month’, ‘N_50%’].
  • В поле «Целевые признаки» ввести: [‘area’].
  • На панели настроек элемента нажать на кнопку «Сохранить».
  • Задать название элемента «Выбор признаков».
  • Соединить блоки:

  1. Разделение входного датасета на обучающую и тестовую выборки. Добавить на рабочую область элемент «Процесс» и настроить его.
    1. Выбрать из списка функцию: раздел «Машинное обучение» ->  функция «Разделение датасета на обучающую и тестовую выборки»:

  1. Указать долю тестовой выборки – 0.2. Так 80% данных будут использованы для обучения модели, и 20% – для тестирования.
  2. Установить галочку в поле «Перемешивать наблюдения перед разделением».
  3. Установить галочку в поле «Разделять с учетом меток классов».
  4. Задать название элемента «Сплит датасета».
  5. Соединить с предыдущими элементами:

  1. Стандартизация признаков. Добавить на рабочую область элемент «Процесс» и настроить его:
    1. Выбрать из списка функцию: раздел «Препроцессинг ->  функция «Стандартизация»:

Метод предназначен для возможности замены трансформируемых столбцов и добавления новых столбцов в датасет. При этом преобразования над признаками и целевыми признаками проводятся отдельно.

  1. В разделе «Параметры» установить галочку в поле «Замена значений столбцов».
  2. В поле «Флаг признака» выбрать из списка значение «2. Признаки».
  1. Задать название элемента «Стандартизация».
  2. Установить соединения:

  1. Запуск алгоритма бинарной классификации. Добавить на рабочую область и настроить элемент «Процесс»:
    1. Выбрать из списка функцию: раздел «Классификация» ->  функция «Модель XGBClassifier»:

Чтобы предсказать к какому классу относится наблюдение используется метод дерева решений, для которого указываются параметры:

  1. В поле «Глубина дерева» ввести значение: [2,5].  Алгоритм обучения модели будет остановлен после достижения указанного числа разбиений в ветвях дерева решений. 
  2. В поле «Количество базовых моделей» ввести значение: [50,100].
  3. В поле «Порог классификации» ввести значение 0.5 (универсальное значение) – порог классификации, который определяет принадлежность измерения к положительному классу.
  4. Установить галочку рядом с полем «Флаг возврата вероятности при прогнозе».
  5. Установить галочку рядом с полем «Оптимизация гиперпараметров» – флаг поиска лучших гиперпараметров (устанавливается, если есть выбор из нескольких значений для гиперпараметров).
  6. В поле «Метрика для оптимизации» выбрать из списка значение «5.AUC_ROC».
  7. В поле «Количество фолдов для оптимизации» указать значение 5. 
  8. Ввести название элемента «Классификация».
  9. Установить соединения:

  1. Валидация модели на тестовой выборке. Добавить на рабочую область и настроить элемент «Процесс»:
    1. Выбрать из списка функцию: раздел «Машинное обучение» ->  функция «Валидация модели»:

  1. В разделе «Параметры» -> в поле «Метрика» выбрать значение «6. F1» – метрика для валидации. Анализируется связь между выбранными погодными условиями и целевым признаком. Так оценивается вероятность возникновения лесного пожара по всем показателям. Функция возвращает величину вероятности в виде значения от 0 до 1.
  1. Ввести название блока: «Валидация».
  2. Установить соединения с предыдущим элементом «Классификация» и элементом «Сплит датасета», как показано в Приложении 4. Обратите внимание! Элементы в блок-схеме могут соединяться не только последовательно
  3. Сохранение модели. Добавить на рабочую область и настроить элемент «Процесс»:
    1. Выбрать из списка функцию: «Управление моделями» ->  функция «Сохранение модели»:

  1. В строке «Название модели» ввести название модели «Лесные пожары».
  2. Ввести название элемента «Сохранение модели».
  3. Установить соединения: 

  1. Запуск пайплайна. Чтобы запустить сборку пайплайна нужно нажать на кнопку  на первом элементе «Запуск» собранной блок-схемы. При этом отображение элемента «Запуск» изменится:

Если активировать параметр «Сформировать отчет», в результате запуска пайплайна будет создан отчет.

Блоки пайплайна последовательно запускаются. При обработке на элементе загорается индикатор оранжевого цвета, а уже обработанный блок отмечается зеленым индикатором:

  1. Визуализация результатов. После того как все элементы схемы будут успешно обработаны, на панели инструментов появляются кнопки:

Последовательно нажимая на кнопки визуализации, можно отобразить на рабочей области следующую информацию:

  1. Графики пайплайна. Для этого пользователь нажимает кнопку  и выбирает график «Матрица ошибок для бинарной классификации», в котором отображается результат работы обученной модели на тестовой выборке данных:

При чтении таблицы слева направо и сверху вниз:

  • в первой ячейке отображается количество наблюдений, которые модель предсказала как нормальные данные (значение флага аномалий равно 0), и это подтвердилось;
  • во второй ячейке наблюдения, которые модель предсказала как аномалии (значение флага аномалий равно 1), а они оказались нормальными;
  • в третьей ячейке наблюдения, которые модель предсказала нормальными, а они оказались аномалиями:
  • в четвертой ячейке наблюдения, которые модель предсказала как аномалии, и это подтвердилось.
  1. Операции с блоками визуализации. Для перемещения блока с визуализацией по рабочей области блок зажимается левой кнопкой мыши и перемещается в нужное место. Чтобы зафиксировать блок в определенном месте рабочей области необходимо нажать на блоке правую кнопку мыши, и выбрать действие «Закрепить»:

Соответственно чтобы отменить фиксацию необходимо выполнить обратное действие «Открепить».

Для удаления блока используется действие «Удалить».

  1. Таблицы. Нажимается кнопка , и последовательно открываются таблицы из списка:

Первая таблица, со значением метрики F1 (точностью/долей правильных ответов при предсказании моделью):

Вторая таблица, с указанием количества правильных и неправильных ответов модели в разрезе предсказаний наступления интересующего события:

  1. Описание модели. Для этого нажимается кнопка :

  1. Проверка сохранения модели. Для этого перейти в пункт меню Модели. Убедиться, что в список сохраненных моделей добавилась новая модель.
  2. Проверка создания отчета. Если в блоке «Запуск» был активирован движок создания отчета, в разделе «Отчеты» создается отчет.
In this article: