Knowledge base

Knowledge base

Close

Визуализация на рабочей области в виде таблиц

Матрица корреляции

Матрица корреляции по всем признакам

Появляется в результате применения блока Матрица корреляции (подробнее см. в этом разделе). Таблица показывает коэффициенты корреляции между парами признаков, расположенными на осях. 

Таблица «Матрица корреляции»

Косинусное расстояние 

Таблица с наблюдениями, наиболее схожими с входным вектором. Наибольший интерес представляют столбцы session_id и cos_sim.

  • cos_sim – это сокращение от cos similarity, то есть “косинусная схожесть”. Чем меньше значение этой метрики, тем более похожи объекты. В таблице представлены топ-10 самых похожих объектов, относительно выбранного. 
  • session_id – уникальный номер объекта

Таблица «Косинусное расстояние»

Тест Дики Фуллера на стационарность

Появляется в результате применения блока Тест Дики-Фуллера (подробнее см. в этом разделе). На таблице представлены показатели для исследуемых признаков, где: 

  • statistic – это промежуточная величина, которая используется для расчета p_value.
  • p_value (значение вероятности) – это вероятность появления экстремального Наблюдения (Observation) при условии истинности Нулевой гипотезы;
  • output – оценка стационарности временного ряда. True – означает, что ряд стационарен. False – нестационарен.
  • text – интерпретация результата в текстовой форме.

Таблица «Тест Дики-Фуллера на стационарность»

Коэффициент асимметрии Skewness

Появляется в результате применения блока Коэффициент асимметрии Skewness (подробнее см. в этом разделе). На таблице представлены показатели для исследуемых признаков, где: 

  • mean – среднее значение признака.
  • median – серединное значение набора чисел или число, которое находится в середине этого набора, если его упорядочить по возрастанию, то есть такое число, что половина из элементов набора не меньше него, а другая половина не больше.
  • variance – дисперсия случайной величины или мера разброса значений случайной величины относительно её математического ожидания.
  • statistic – промежуточная расчетная величина.
  • output – оценка нормальности распределения признака. True – означает, что распределение нормально. False – отлично от нормального.
  • text – интерпретация результата в текстовой форме.

Таблица «Коэффициент асимметрии Skewness»

Валидация модели

Валидация на тестовой выборке. 

Появляется в результате применения блока Валидация модели. Представляет собой расчет выбранной метрики для каждого признака. 

Например если была выбрана MAE, то в таблицу будет выведено её значение. МАЕ – метрика, которая сообщает нам среднюю абсолютную разницу между прогнозируемыми значениями и фактическими значениями в наборе данных. Чем ниже MAE, тем лучше модель соответствует набору данных.

Таблица «Валидация на тестовой выборке»

Ошибка модели при прогнозировании классов:

Появляется в результате применения блока Валидация модели (Spark и классическая). В таблице отображается результат обработки тестового датасета, после обучения модели на обучающем датасете. Можно увидеть сколько ошибок допустила модель, а сколько классов были определены верно:

Таблица «Ошибки модели при прогнозировании классов»

Кластеризация 

Количество объектов в каждом кластере

Появляется в результате применения блоков Кластеризация DBSCAN, Кластеризация K-Means, Кластеризация Spark DBSCAN, Метод локтя K-Means, Агломеративная иерархическая кластеризация и Изоляционный лес (подробнее см. в этом разделе).

В таблице представлены два столбца:

  • label – это номер кластера
  • volume – количество объектов в данном кластере.

Таблица «Количество объектов в каждом кластере»

Центроиды

Появляется в результате применения блока Кластеризация K-Means (подробнее см. в этом разделе). В таблице представлены значения центроидов для каждого исследуемого признака и каждого кластера. Центроиды — центры тяжести кластеров. Каждый центроид — это вектор, элементы которого представляют собой средние значения соответствующих признаков, вычисленные по всем записям кластера.

Таблица «Центроиды» K-Means

Предобработка данных 

Отфильтрованные текстовые данные

Появляется в результате применения блока Фильтрация текстового шума (подобнее см. в этом разделе) и содержит в себе текст, прошедший процедуру фильтрации. На примере ниже функция применялась на датасете для классификации, поэтому также содержит столбец label обозначающий принадлежность к классу.

Лемматизированные текстовые данные

Появляется в результате применения блока Лемматизация текста (подобнее см. в этом разделе) и содержит в себе текст, прошедший процедуру лемматизации. На примере ниже функция применялась на датасете для классификации, поэтому также содержит столбец label обозначающий принадлежность к классу.

Классификация 

История обучения

Появляется в результате применения блока Классификация изображений (подробнее см. в этом разделе) и содержит в себе информацию отражающую качество обучения модели. На графике представлена красная линия (Метрика Accuracy), отражающая точность классификации по мере повторения обучения (количество эпох). Синим цветом выделена Функция потерь – это показатель количетсво ошибок.

Графики истории обучения

Работа с текстом 

Краткое содержание

Появляется в результате применения блока Автореферирование текста (подробнее см. в этом разделе) и содержит в себе текст, обработанный функцией автореферирования, выделяющей основную идею текста. На примере ниже функция применялась на датасете для классификации, поэтому также содержит столбец label обозначающий принадлежность к классу.

Графы 

Число вершин и ребер графа

Появляется в результате применения блока Расчет параметров графа и содержит информацию по количеству вершин и ребер графа.

Ближайшие вершины

Появляется в результате применения блока Поиск ближайших вершин. Таблица включает в себя данные по ‘ID ближайшей вершины графа’, ‘Расстоянию между исходной точкой и вершиной графа’, ‘Координату долготы исходной точки’, ‘Координату широты исходной точки’ для каждой исходной пары координат. Каждый столбец Датасета и Таблицы является результатом вычислений для соответствующей пары координат, введенных пользователем.

In this article: