Knowledge base

Knowledge base

Close

Анализ данных

Анализ временных рядов

Графики анализа временных рядов являются выходной информацией блока Анализ временных рядов (подробнее см. в этом разделе). 

Линейный график

Линейный график временного ряда показывает количественное или числовое изменение значения переменной в течение периода времени. График может быть многомерным и отображать значения сразу нескольких переменных на одном полотне. Выбор переменных (признаков) осуществляется на блоке с функцией «Анализ Данных» -> Выбор признаков и целевых признаков (подробнее см. в этом разделе), который должен идти перед блоком «Анализ Временных рядов». Вид графика:

Линейный график временного ряда

График автокорреляции (ACF) и частичной автокорреляции (PACF).

График ACF показывает корреляцию временного ряда с его лагами (сдвиг ряда на определенный шаг). Например, мы можем оценивать, как влияет значение с предыдущего шага на последующий.  Каждая вертикальная линия представляет корреляцию между рядом и его временем, начиная с времени 0. Голубая область на графике является уровнем значимости. Те моменты, которые лежат выше или ниже голубой области, являются существенными. Используется для оценки сезонности, тренда.

PACF, с другой стороны, показывает автокорреляцию значения временного ряда с наблюдениями на предыдущем отрезке времени, но с удалением промежуточных влияний между ними.

Параметры графика включают в себя число лагов автокорреляций – число периодов, по которым рассчитывается коэффициент автокорреляции.

Графики могут быть использования для того, чтобы задавать параметры для модели ARIMA.

График ACF/PACF

Декомпозиция

Декомпозиция временного ряда позволяет визуализировать следующие составляющие временного ряда:

  • Тренд – тенденция, определяющая основное направление развития явления за наблюдаемый период времени
  • Сезонность – регулярные периодические колебания, могут быть внутри годичными или цикличными, длительностью в несколько лет)
  • Остатки – случайные колебания, связанные с действием разного рода второстепенных факторов, это т.н. случайная компонента.

Декомпозиция временного ряда

Свечной график

График используется для визуализации и анализа изменения значений параметров за определенный период времени.

Для работы с графиком необходимо указать число периодов и периодов. Это разделит временной ряд на периоды, каждый из которых будет анализироваться отдельно. Прямоугольники (свечи) на графике отображают разницу между значением параметра на начало периода и на конец. Линии, исходящие из свечей, показывают максимальное и минимальное значение параметра за период времени. Если значение параметра на конец периода выше, чем на начало – то свеча окрасится в оранжевый цвет; если значение на конец периода ниже, чем на начало – в серый.

Свечной график временного ряда

Time profile

График представляет собой перевернутые гистограммы со всеми значениями переменной за определенный период времени.

Для работы с графиком необходимо указать шаг и частоту профиля, которые определяют временные отрезки оси Х. В результате получаются значения параметра в рамках шага и можно на одном графике видеть, как они изменяются в рамках одинаковых интервалов времени.

Time profile временного ряда

Extended

Extended – это линейный график временного ряда, где отдельно для каждого признака можно проследить разницу между начальным и конечным значением заданного периода.

Для работы с графиком необходимо указать шаг и частоту периода, которые определяют временные отрезки оси Х. Если значение на начало периода меньше, чем на конец – этот отрезок на графике окрасится в серый цвет; если значение на начало периода больше, чем на конец – то цвет будет оранжевым.

Extended временного ряда

Bollinger Bands

График содержит несколько составляющих:

·   Серым окрашен линейный график временного ряда;

·   Зеленым – средняя скользящая;

·   Оранжевым – т.н. полосы Боллинджера. Верхняя полоса – это скользящая средняя плюс два стандартных отклонения, а нижняя – минус два.

Для работы с графиком необходимо задать размер окна Moving Average – это период времени, на основании которого будет рассчитана скользящая средняя. В результате получаем коридор, в рамках которого значения временного ряда считаются нормальными. В случае, если значение временного ряда выходит за рамки коридора – это идентификатор необычного поведения, требующего проверки.

Bollinger Bands временного ряда

Stochastic

График разделен на две области, где сверху отображается сам временной ряд, а в нижней части – Стохастик.

Стохастик состоит из двух линий: оранжевой (сам стохастик) и серой (скользящая средняя), которые двигаются вверх и вниз в пределах вертикальной шкалы от 0 до 100%. От уровней 20 и 80 идут два горизонтальных уровня, ниже и выше которых находятся зоны повышенных и пониженных значений соответственно. Стохастик сопоставляет значение на конец периода с диапазоном значений за выбранный период времени.

Для работы с графиком необходимо задать размер окна Moving Average – это период времени, на основании которого будет рассчитана скользящая средняя, а также шаг и частоту периода, которые определяют временные отрезки оси Х.

Stochastic временного ряда

Поиск и удаление выбросов

Алгоритм позволяет определить выбросы в датасете и получить следующий результат:

1. Отобразить таблицу с выбросами.
2. Построить график boxplot.
3. Удалить выбросы методом трёх сигм.
4. Сохранить результат в отдельный датасет.

Матрица корреляции

Графики матрицы корреляции являются выходной информацией блока Матрица корреляции (подробнее см. в этом разделе).

Тепловая диаграмма

Тепловая диаграмма наносится на матрицу корреляции, в результате получается график, который показывает коэффициенты корреляции между парами признаков, расположенными на осях. При этом ячейки диаграммы окрашиваются в разные цвета, минимальные значения – в более “холодные” цвета, а максимальные – в более “теплые”. Т.о. можно увидеть, как в наборе данных одна связь сравнивается со всеми другими.

Матрица корреляции. Тепловая диаграмма.

PairPlot

PairPlot визуализирует взаимосвязь между парой признаков, график состоит из двух типов диаграмм:

Гистограммы голубого цвета, где ось х – это значения признаков, а ось у – это частота встречаемости. Гистограмма визуализирует количество данного значения в распределении.

Диаграммы рассеяния, где точки на графике оранжевого цвета – это вектор из двух координат. Если взаимосвязь между признаками сильная – облако точек расположится примерно под углом 45 градусов. Если у признаков положительная корреляция – на графике отобразится рост слева направо, и соответственно наоборот для отрицательной корреляции. Если облако размазанное – связь небольшая.

Матрица корреляции. Pair plot.

Загрузка данных

Временной ряд после среза

На данном графике отображаются значения всех признаков временного ряда (ось Х) за указанный в срезе промежуток времени (ось Y).  График появляется в результате применения функции Срез временного ряда по индексу (подробнее см. в этом разделе).

In this article: