Knowledge base

Knowledge base

Close

Машинное обучение

Основная цель машинного обучения — сделать возможным обучение на основе опыта, что позволяет со временем улучшать прогнозы и результаты.

Обучение без учителя

Кластеризация – это задача группировки множества объектов на подмножества (кластеры) так, чтобы объекты одного кластера были более похожи друг на друга, чем на объекты других кластеров по какому-либо критерию. Относится к классу задач обучения без учителя.

Кластеризация DBSCAN

Алгоритм DBScan формирует группы коренных соседей/кластеры, объединяя точки, расположенные рядом. Точки, которые не попадают ни в одну из групп, отмечаются меткой -1 и приравниваются к аномалиям.

Параметры блока:

  • Радиус. Радиус в единицах расстояния, в рамках которого выполняется поиск потенциальных соседей (float/list/tuple).
  • Число соседей. Минимальное число ближайших соседей в указанном радиусе для формирования группы коренных соседей (int/list/tuple).
  • Метрика расстояния. Метрика расстояния (str/list): расстояние Евклида, косинусное расстояние. По умолчанию «Евклидово расстояние» используется при кластеризации данных в текущем датасете, а также при отнесении нового объекта к кластеру.
  • Сохранить коренные элементы. Установите флажок, если коренные точки (ядровые элементы) должны сохраняться в выходных данных.
  • Оптимизация гиперпараметров. Установите флажок, если нужно вручную ввести гиперпараметры: радиус, число соседей, метрика расстояния. Если флажок снят, то гиперпараметры подбираются автоматически.
Кластеризация K-средних

Кластеризация K-средних — это алгоритм машинного обучения, использующийся для разделения данных на K предопределенных кластеров на основе их схожести. Он функционирует следующим образом:

  1. Инициализация: Алгоритм случайным образом выбирает K центров кластеров (серединные точки).
  2. Присвоение: Каждая точка данных присваивается ближайшему центру кластера, основываясь на расстоянии (обычно Евклидово).
  3. Обновление: Центры кластеров пересчитываются как средние значения всех точек, входящих в кластер.
  4. Повторение: Процесс присвоения и обновления повторяется до тех пор, пока центры кластеров не перестанут значительно изменяться или не будет достигнуто максимальное количество итераций

Алгоритм кластеризации K-средних:

Параметры блока:

  • Число кластеров. Задается оптимальное количество кластеров.
  • Метрика расстояния. Используется для определения схожести между точками данных и центрами кластеров.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров.
Агломеративная иерархическая кластеризация

*Данный блок временно недоступен

Последовательно объединяет объекты во все более крупные подмножества, в результате образуется древовидная структура. Отдельные версии иерархии отличаются правилами вычисления расстояния между кластерами. Например, алгоритм средней связи на каждом шаге объединяет два ближайших кластера, рассчитывая среднюю арифметическую дистанцию между всеми парами объектов.

Изоляционный лес

*Данный блок временно недоступен

Алгоритм поиска аномалий (выбросов) методом «Изоляционный лес»:

Изолирует наблюдения, случайным образом выбирая объект, а затем случайным образом выбирая разделения между максимальным и минимальным значениями объекта. Разбиение представлено древовидной структурой, количество разбиений, необходимое для изоляции выборки, равно длине пути от корневого до конечного узла. Эта длина пути является мерой нормальности и функции принятия решений. Когда лес случайных деревьев создает более короткие пути для отдельных объектов, они, скорее всего, являются аномалиями.

Параметры блока:

  • Число деревьев. Задается оптимальное количество деревьев.

Классификация

Классификация решает задачу разделения множества наблюдений (объектов) на группы, то есть классы, на основе анализа их формального описания. При классификации каждое наблюдение относится к определенной группе на основе некоторого качественного свойства. Пусть X – множество описаний объектов, Y – конечное множество номеров/имен/меток классов. Существует неизвестная целевая зависимость отображения , значения которой известны только на объектах обучающей выборки . Строится алгоритм, способный классифицировать произвольный объект .

Логистическая регрессия

Используется логистическая функция для моделирования зависимости выходной переменной y от набора входных переменных x, когда первая является бинарной. Например, с помощью логистической регрессии можно оценивать вероятность наступления/или не наступления некоторого события.

Предсказывается непрерывная переменная – коэффициент логистической регрессии, принимающий значение от 0 до 1: если значение коэффициента больше порогового значения, то вероятность наступления события равна 1; иначе вероятность наступления события равна 0.

Параметры блока:

  • Коэффициент регуляризации. Указывается значение строго больше нуля – положительное вещественное число, с помощью которого добавляется дополнительное ограничение к условию с целью предотвратить переобучение модели.
  • Комбинационный коэффициент (Порог классификации). Значение вещественного типа от 0 до 1, определяющее принадлежность объекта к тому или иному классу.
  • Коэффициент сдвига. Параметр, который определяет начальное значение логистической функции, когда все независимые переменные равны нулю.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
модель градиентного бустинга для классификации

Алгоритм анализирует связь между признаками и целевым признаком. На обучающей выборке модель обучается соотносить наблюдение к аномалиям, а на тестовой выборке выполняется валидация ответов обученной модели.

Параметры блока:

  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение модели ИИ останавливается.
  • Количество базовых моделей. Определяет сколько независимых моделей будет работать над обучением.
  • Порог классификации. Значение от 0 до 1, указывающее на верхнюю границу вероятности причисления объекта к классу.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
модель решающего дерева для классификации

Предсказывает, к какому классу принадлежит объект из обучающего массива данных. Для этого строится дерево решений: древовидная структура, где моменты принятий решений соответствуют узлам, в узлах происходит ветвление процесса на ветки в зависимости от сделанного выбора, и конечные узлы (листья) – конечные результаты последовательного принятия решений. В узлах, начиная с корневого, выбирается признак, значение которого используется для разбиения всех данных на два класса. Процесс продолжается до тех пор, пока не выполнится критерий остановки – дерево превысило заранее заданный «лимит роста» (достигнута глубина дерева). При этом разбиения выполняются таким образом, чтобы уменьшить выбранный критерий, например энтропию – степень неопределенности в разбиении на классы.

Параметры блока:

  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение модели ИИ останавливается.
  • Количество интервалов при дискретизации численных признаков.
  • Порог классификации. Значение порога определяет принадлежность объекта к одному из классов: к положительному – если порог выше указанного значения, к отрицательному – если порог ниже.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
модель случайного леса для классификации

Строится множество решающих деревьев, и  в задаче классификации принимается решение голосованием по большинству. Все деревья строятся независимо по схеме.

Выбирается подвыборка обучающей выборки и по ней строится дерево.

  1. Для построения каждого расщепления в дереве просматривается максимальное количество случайных признаков.
  2. Выбирается наилучший признак и расщепление по нему (по заранее заданному критерию). Дерево строится, до достижения параметра, ограничивающего его высоту.

Таким образом деревья обучаются не только на разных наборах данных, но и используют разные признаки для принятия решений – это создает некоррелированные деревья, которые и защищают друг друга от своих ошибок. Прогноз получается точнее, чем у любого отдельного дерева.

Параметры блока:

  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение модели ИИ останавливается.
  • Количество базовых моделей.
  • Порог классификации. Его можно настраивать в зависимости от задач и требований. Например, если важно минимизировать пропуски положительных случаев (например, в медицинской диагностике), порог может быть снижен (например, до 0.3).
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
наивный байесовский классификатор

Группа байесовских классификаторов позволяет определить к какому классу принадлежит объект на основе теоремы Байеса с допущением о независимости признаков.

Параметры блока:

  • Тип модели:
    • Гауссово. Для значений признаков для каждого класса строится распределение Гаусса (этот алгоритм работает с непрерывными признаками). В качестве значений правдоподобия для признаков берутся значения функции Гаусса из конкретного распределения (соответствующее признаку и классу), В ней участвуют среднее и дисперсия распределения, а также X, по значению которого мы и оцениваем значение Y (то есть значение функции максимального правдоподобия).
    • Мультиномиальное. Мультиномиальный классификатор применяется для признаков с полиномиальным распределением. Пример: классификация текстов, где каждый текст представлен вектором слов (например, мешок слов или tf-idf).
    • Комплементарное. Представляет собой вариант адаптации Multinomial Naive Bayes для датасетов с несбалансированными классами.
    • Биномиальное. Применяется для признаков с биномиальным распределением. Пример: классификация текстов, где каждый текст представлен вектором наличия слов из словаря (1 – есть слово, 0 – нет).
  • Параметр сглаживания Лапласа. Значение для аддитивного сглаживания Лапласа во избежание проблемы нулевой вероятности. Если равен нулю, то сглаживания нет.
  • Порог классификации.
  • Оптимизация гиперпараметров. Флаг подбора гиперпараметров. Флаг активируется, когда указывается несколько гиперпараметров. 
Логический анализ

*Блок временно недоступен.

Алгоритм применяется для поддержки принятия решений при классификации и распознавании, особенно для решения задач, в которых велики негативные последствия принятия неверных решений. Алгоритм принимает на входе датасет с наблюдениями (и их признаками), которые разделены на ‘положительные’ и ‘отрицательные’ и возвращает классификацию датасета.

В результате работы алгоритма: 

  • Выполняется бинаризация датасета;
  • Находится опорное множество;
  • Для каждого уникального наблюдения обучающей выборки формируется правило;
  • Производится оптимизация паттернов;
  • Выполняется классификация. Происходит определение весов отобранных правил для строк тестовой выборки, и выполняется предсказание.
Стекинг классификация

*Блок временно недоступен.

Использует ансамбль разнородных моделей для последующей обработки. Результатом работы алгоритма является метка объекта (в случае решения задач классификации) или число (в случае решения задач регрессии).

Параметры блока:

  • Случайный лес. Строится ансамбль решающих деревьев. При этом большое количество некоррелированных моделей (деревьев) превосходит любую из отдельных моделей.
  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение останавливается.
  • Градиентный бустинг представляет собой ансамбль деревьев решений. В основе данного алгоритма лежит итеративное обучение деревьев решений с целью минимизировать функцию потерь. Благодаря особенностям деревьев решений градиентный бустинг способен работать с категориальными признаками , справляться с нелинейностями. Бустинг – это метод преобразования слабообученных моделей в хорошо обученные. В бустинге каждое новое дерево обучается на модифицированной версии исходного датасета.
  • Количество базовых моделей. Определяет сколько независимых моделей будет работать над обучением.
  • Коэффициент регуляризации. Указывается значение строго больше нуля – положительное вещественное число, с помощью которого добавляется дополнительное ограничение к условию с целью предотвратить переобучение модели.
  • Количество фолдов. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Регрессия

Регрессия – математическое выражение, отражающее связь между зависимой переменной y и независимыми переменными x. Алгоритмы регрессии используются для контролируемого обучения моделей ИИ – так называемого обучения «с учителем», когда данные размечаются для помощи в прогнозировании. Сопоставляя входные данные и полученные результаты на точность, модель постепенно обучается прогнозировать числовые значения целевых переменных.

Линейная регрессия

Прогнозирует целевую переменную Y на основе одной или нескольких независимых переменных X. Для этого между X и Y строится линейная связь.

Полиномиальная регрессия

Метод регрессионного анализа, в которой взаимосвязь между независимыми переменными x и зависимой переменной y моделируется как полином n-ой степени от x. Полиномиальная регрессия соответствует нелинейной зависимости между значением x и соответствующим условным средним y, обозначающим E(y|x).

В отличие от линейной регрессии моделирует нелинейно разделенные данные – более гибкая и может моделировать сложные взаимосвязи.

Параметры блока:

  • Степень полинома. Степень уравнения полиномиальной регрессии, которая определяет линию наилучшего соответствия. При неправильном выборе степени, модель может быть перенасыщена. Значение по умолчанию – 2.
  • Только произведение. Если установить галочку в поле, то не выполняется возведение в степень, а только перемножение.
  • Оптимизация гиперпараметров. Нужно активировать галочку в поле, когда выбирается наиболее подходящая степень полинома из нескольких предложенных. А подбирается гиперпараметр так, чтобы получить наилучшее значение метрики.
  • Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.
модель решающего дерева для регрессии

Предсказывает значение целевой переменной, изучая простые правила принятия решений, выведенные из характеристик данных.  Представляет собой древовидный граф с узлами, где атрибут  – вопрос, ребро – ответ на вопрос, а листья – фактический результат. Наблюдения классифицируются сверху вниз от корня до листьев.

Параметры блока:

  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение останавливается.
  • Оптимизация гиперпараметров. Нужно активировать галочку в поле, когда выбирается наиболее подходящая степень полинома из нескольких предложенных. А подбирается гиперпараметр так, чтобы получить наилучшее значение метрики.
  • Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.
модель случайного леса для регрессии

В отличие от предыдущего алгоритма здесь строится ансамбль решающих деревьев. При этом большое количество некоррелированных моделей (деревьев) превосходит любую из отдельных моделей.

Параметры блока:

  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение останавливается.
  • Количество деревьев. 
  • Оптимизация гиперпараметров. Нужно активировать галочку в поле, когда выбирается наиболее подходящая степень полинома из нескольких предложенных. А подбирается гиперпараметр так, чтобы получить наилучшее значение метрики.
  • Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.
Метод опорных векторов для регрессии

*Блок временно недоступен.

В основе регрессии опорных векторов (с англ. SVR – Support Vector Regression) лежит поиск гиперплоскости, при которой риск в многомерном пространстве будет минимальным. SVR оценивает коэффициенты путем минимизации квадратичных потерь: считается сумма квадратов ошибок (между прогнозом и фактом), и к ней прибавляется штраф в виде произведения коэффициента регуляризации и суммы квадратов весов.

*Вместо квадратичной функции используется кусочно-линейная, и задается отступ eps (по умолчанию, равная 0.1): если разница между прогнозируемым и истинным значением меньше eps (прогнозное значение попадает в пространство гиперплоскости), модель не считает это за ошибку, иначе – берется модуль разницы.

Параметры блока:

  • Тип ядра. Функция ядра (kernel) может принимать значения: {‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’}.
  • Степень для ядра полинома. Если в качестве функции ядра используется полиномиальная функция (‘poly’), которая является методом нелинейной регрессии, то зависимая переменная связана с независимыми переменными n-ой степени. В поле указывается степень этого ядра.
  • Коэффициент регуляризации. Мера степени наказания модели за каждую неверно спрогнозированную точку.
  •  Оптимизация гиперпараметров. Нужно активировать галочку в поле, когда выбирается наиболее подходящая степень полинома из нескольких предложенных. А подбирается гиперпараметр так, чтобы получить наилучшее значение метрики.
  • Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.
Байесовская гребневая регрессия

*Блок временно недоступен.

В основе метода лежит формула Байеса, которая дает возможность оценить вероятность событий эмпирическим путем.

Гребневая регрессия – один из методов снижения размерности. Для гребневой регрессии к функции потерь прибавляется параметр lambda, обозначающий размер штрафа. Чем меньше lambda, тем выше дисперсия и ниже смещение.

Смещение – это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения. В результате большого смещения алгоритм может пропустить связь между признаками и выводом (недообучение).

Дисперсия – это ошибка чувствительности к малым отклонениям в тренировочном наборе. При высокой дисперсии алгоритм может трактовать случайный шум в тренировочном наборе, а не желаемый результат (переобучение).

Параметры блока:

  • alpha_1. Допустимые максимальные расстояния графика регрессии до верхнего доверительного интервала.
  • alpha_2. Допустимые максимальные расстояния графика регрессии до нижнего доверительного интервала.
  • lambda_1. Размеры штрафов при выходе прогнозируемых значений за пределы верхнего доверительного интервала.
  • lambda_2. Размеры штрафов при выходе прогнозируемых значений за пределы нижнего доверительного интервала.
  • Оптимизация гиперпараметров. Нужно активировать галочку в поле, когда выбирается наиболее подходящая степень полинома из нескольких предложенных. А подбирается гиперпараметр так, чтобы получить наилучшее значение метрики.
  • Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.
Метод k-ближайших соседей для регрессии

*Блок временно недоступен.

Для регрессии объекту присваивается среднее значение по k ближайшим к нему объектам, значения которых уже известны.

Алгоритм применяется к выборке с большим количеством атрибутов (многомерной). Для этого перед применением определяется функция расстояния, классический вариант такой функции – евклидова метрика.

Разные признаки могут иметь разный диапазон представленных значений в выборке, поэтому выполняется нормализация данных.

Некоторые значимые признаки могут быть важнее остальных, поэтому для каждого признака задается определенный вес.

Алгоритм предполагает, что похожие наблюдения существуют в непосредственной близости: улавливается идея сходства (иногда называемого расстоянием или близостью) благодаря вычислению Евклидова расстояния между точками. 

Параметры блока:

  • Количество ближайших соседей. Число k, характеризующее количество соседей в кластере.
  • Тип веса для соседей. Задается одно из значений: ‘uniform’ (единый – всем признакам присваивается единый вес), или ‘distance’ (по расстоянию). Значение по умолчанию – единый.
  • Метрика расстояния. Задается одно из значений: ‘chebyshev’ (Чебышева), ‘euclidean’ (Евклидова), ‘cosine’ (Косинусное), ‘cityblock’ (Манхэттенское). Значение по умолчанию – евклидово расстояние, когда вычисляется расстояние между всеми точками попарно.
    • Евклидово расстояние — это прямая линия между двумя точками с координатами X и Y. Для расчёта Евклидового расстояния нужны лишь координаты этих двух точек. Дистанцию между ними рассчитывается по формуле Пифагора.
    • Манхэттенское расстояние (так же известно как L1) – измеряет дистанцию не по кратчайшей прямой, а по блокам. Например, расстояние измеряет дистанцию между городскими блоками: это расстояние всех прямых линий пути. Т.о. данная метрика – это минимальная длина пути из x в y при условии, что можно двигаться только параллельно осям координат.
    • Расстояние Чебышева (метрика шахматной доски) – определяется как самая большая дистанция на одной оси. Т.е. оно схоже с манхэттенским расстоянием, но если в первом учитывается два шага при перемещении между блоками (например, вверх и вниз), то расстояние Чебышева считается по диагонали, соответственно, это один шаг. Т.о. данная метрика – выбирающая наибольшее из расстояний между векторами по каждой координате.
    • Косинусное расстояние часто используется для измерения схожести между текстами. Каждый документ описывается вектором, каждая компонента которого соответствует слову из словаря. Компонента равна единице, если соответствующее слово встречается в тексте, и нулю в противном случае. Тогда косинус между двумя векторами будет тем больше, чем больше слов встречаются в этих двух документах одновременно.
  • Оптимизация гиперпараметров. Если поставить галочку в данном поле, появится возможность выбрать несколько метрик и по система автоматически выберет наилучшее и оптимальное значение. Метрика для оптимизации. Значения на выбор: RMSE, MAE, WMAPE. Эти метрики используются для оценки работы модели регрессии – проверяют точность прогноза и измеряют величину отклонения от фактических значений.
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
  • Количество фолдов для оптимизации. Указывается, на сколько равных частей разбивается входной датасет при обучении модели.
Стекинг регрессия

*Блок временно недоступен.

Использует ансамбль разнородных моделей для последующей обработки. Результатом работы алгоритма является метка объекта (в случае решения задач классификации) или число (в случае решения задач регрессии).

Параметры блока:

  • Тип ядра. Функция ядра (kernel) может принимать значения: {‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’}.
  • Степень для ядра полинома. Если в качестве функции ядра используется полиномиальная функция (‘poly’), которая является методом нелинейной регрессии, то зависимая переменная связана с независимыми переменными n-ой степени. В поле указывается степень этого ядра.
  • Коэффициент регуляризации. Указывается значение строго больше нуля – положительное вещественное число, с помощью которого добавляется дополнительное ограничение к условию с целью предотвратить переобучение модели.
  • Глубина дерева. Заданное максимальное число разбиений в ветвях, по достижению которого обучение останавливается.
  • Количество фолдов. Датасет делится на фолды – на указанное количество равных частей. При обучении модели каждый фолд становится валидационным один раз, при этом на остальных фолдах выполняется обучение. Каждый раз рассчитывается значение метрики. Затем рассчитывается усредненная метрика, которая характеризует точность модели.

Валидация модели

На тестовой выборке данных (обычно это 20% датасета) проверяется правильность работы (предсказательная способность) модели ИИ, построенной на основе машинного обучения.

Параметры блока: Метрики на выбор:

  • Для задач регрессии: RMSE, R2, MAE, WMAPE
    • MAE (Mean Absolute Error) – метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.
    • RMSE (Root Mean Squared Error) – это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения. Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.
    • WMAPE (Weighted Mean Absolute Percentage Error) – показатель точности прогнозирования с учетом сдерживающих факторов. Например, вы пытаетесь предсказать убыток, но процент потерь должен быть взвешен с объемом продаж, потому что убыток от огромной продажи требует лучшего прогнозирования.
    • R2 (коэффициент детерминации) – это измерение количества отклонений в прогнозах, объясненных набором данных. Проще говоря, это разница между выборками в наборе данных и прогнозами, сделанными моделью.
  • Для задач классификации: Accuracy, F1, Precision, Recall, AUC_ROC
    • Accuracy – Она измеряет количество верно классифицированных объектов относительно общего количества всех объектов.
    • Precision – определяет, сколько из всех объектов, которые классифицируются как положительные, действительно являются положительными, относительно общего количества полученных от модели позитивных меток.
    • Recall – определяет, Сколько объектов наша модель смогла правильно классифицировать с позитивной меткой из всего множества позитивных.
    • F1 – сочетание precision и recall, дает некоторый компромисс между ними двумя. Если показатель близок к нулю – классификация прошла неуспешно, если ближе к 1 – результат хороший.
    • AUC_ROC – равен доле пар объектов вида (объект класса 1, объект класса 0), которые алгоритм верно упорядочил.

Выходная информация: Таблица Валидация на тестовой выборке (подробнее см. в этом разделе).

Прогноз модели

Выполняется последовательность действий по прогнозированию будущих значений целевых признаков.

Разделение датасета на обучающую и тестовую выборки 

Разделение выборки данных на две категории: для обучения модели ИИ, и для проверки результатов обучения.

Параметры блока:

  • Доля тестовой выборки в датасете. Обычно на 80% датасета выполняется обучение модели, а на оставшихся 20% – ее валидация. В таком случает значение указывается в формате 0.2.
  • Перемешивать наблюдения перед разделением. Необходимо установить галочку в поле, чтобы случайным образом поменять местами наблюдения в датасете. Не рекомендуется перемешивать временные ряды, т.к. наблюдения в них упорядочены и зафиксированы последовательно по времени.
  • Разделять с учетом меток классов. Выбирается, учитывать ли долю таргетов при разделении датасета. Используется только для задач классификации, когда объекты распределяются по категориям согласно определенным и заданным заранее признакам.

Выходная информация

  • Отдельно обучающая и тестовая выборки;
  • Журнал преобразований.
In this article: