Knowledge base

Предобработка данных

Предобработка данных – это этап в процессе обучения интеллектуальных моделей, который включает в себя подготовку и оптимизацию сырых данных, чтобы они были готовы к анализу и обучению.

Токенизация текста

Применение блока

Функция блока – разделение текстовой строки на отдельные элементы, называемые токенами (словами, предложениями или символами), для подготовки текста к анализу.

Токенизация текста – этап предобработки, который включает в себя разделение текста на более мелкие единицы, называемые токенами. Они могут быть словами, фразами или даже символами. Например, разделение на токены позволяет представить текст в более управляемой и организованной форме. Это делает его удобным для дальнейшего анализа и обработки.

Настройки блока

Для работы блока не требуются дополнительные настройки вручную.

Label Encoding

Применение блока

Label Encoding — это метод преобразования категориальных данных в числовой формат. Это позволяет использовать их в алгоритмах машинного обучения и других аналитических процессах. Метод присваивает уникальные целые числа каждому уникальному значению категориального признака.

Каждое уникальное значение категориальной переменной заменяется на целое число, начиная с нуля. Например, для категориального признака «Цвет» с возможными значениями «Красный», «Зеленый» и «Синий» преобразование может выглядеть следующим образом:

Красный → 0
Зеленый → 1
Синий → 2

Label Encoding особенно полезен, когда категории имеют некоторую иерархию или порядок (например, «Низкий», «Средний», «Высокий»).

Настройки блока

Укажите признаки, над которыми необходимо провести операцию кодирования: Нецелевые, Целевые или Выбранные.

Стандартизация текста

Применение блока

Стандартизация – преобразование и приведение признаков датасета к единому формату. Она выполняется, чтобы сгладить большие различия между диапазонами признаков датасета и предотвратить искаженное восприятие данных моделью машинного обучения.

Настройки блока

Укажите признаки, над которыми необходимо провести операцию кодирования: Нецелевые, Целевые или Выбранные.

При активации параметра значения признаков будут заменены на стандартизированные.

One-Hot Encoding

Применение блока

Метод One Hot Encoding (OHE) применяется, когда в датасете необходимо закодировать категориальные признаки (текстовые) перед подачей в модель. Для кодируемого категориального признака создаются N новых столбцов в датасете, где N – количество уникальных категорий. Значения в новых столбцах – 0 или 1, в зависимости от принадлежности к категории. Каждый новый признак – бинарный характеристический признак категории.

Настройки блока

Укажите признаки, над которыми необходимо провести операцию кодирования: Нецелевые, Целевые или Выбранные.

Нормализация

Применение блока

Нормализация – это приведение числовых признаков к единой шкале.

Иногда числовой признак имеет минимальное и максимальное значение в очень широком диапазоне, это плохо для машинного обучения. Например, минимальное значение – 0,001, а максимальное – 100000. С помощью нормализации можно преобразовать их к диапазону от 0 до 1. Таким образом 0,001 становится 0, а 100000 становится 1. Значения между ними также преобразовываются, 50000 становится примерно равным 0,5. Данная функция позволяет оптимизировать дальнейшие вычисления.

Настройки блока

Укажите признаки, над которыми необходимо провести операцию кодирования: Нецелевые, Целевые или Выбранные.

Преобразование распределения к нормальному

Применение блока

Блок используется для изменения распределения данных так, чтобы оно стало похоже на нормальное (гауссовское) распределение. Это особенно важно для задач, где многие статистические методы и алгоритмы машинного обучения предполагают нормальность данных.

Настройки блока

Выберите один из параметров:

Логарифмическое преобразование. Применяется к положительным данным, заменяя каждое значение x на log⁡(x). Эффективно для данных с логнормальным распределением или когда данные имеют значительный разброс. Уменьшает большие значения и делает распределение более симметричным.
Преобразование Бокс-Кокса. Метод делает данные более «нормальными», они будут более симметричными и схожими с привычной колоколообразной формой.

Метод включает в себя математическую формулу, которая изменяет данные в зависимости от параметра λ (лямбда). Преобразование Бокс-Кокса полезно, когда вы работаете с регрессионными моделями или другими статистическими анализами, и хотите улучшить качество модели, уменьшив влияние выбросов и сделав данные более предсказуемыми.

Преобразование Йео-Джонсона. Расширение Бокс-Кокс, которое может обрабатывать как положительные, так и отрицательные значения. Формула зависит от значения x. Обеспечивает большее разнообразие преобразований и улучшает нормализацию для различных наборов данных. Подходит для предобработки данных в задачах машинного обучения, таких как регрессия, когда необходимо улучшить нормальность признаков.

Лемматизация

Применение блока

Лемматизация – это процесс приведения всех встречающихся форм слова к одной, нормальной словарной форме. В процессе лемматизации платформа использует словарь и морфологический анализ, чтобы привести слово к его канонической форме – т.н. «лемме», в итоге получается текст, состоящий из слов приведенных к единственному числу, мужскому роду, именительному падежу и инфинитиву (в зависимости от части речи). Для разных частей речи определена своя лемма: для существительных это именительный падеж единственного числа, для прилагательных – именительный падеж единственного числа мужского рода, для глагола – инфинитив (неопределенная форма) несовершенного вида.

Настройки блока

Укажите признаки, над которыми необходимо провести операцию кодирования: Нецелевые, Целевые или Выбранные.

Фильтрация текста

Применение блока

Фильтрация текста – этап предобработки, который включает в себя удаление нежелательных элементов из текстовых данных для подготовки их к анализу и машинному обучению. Это помогает улучшить качество данных, снизить шум и повысить эффективность последующих этапов обработки. Например, удаление стоп-слов, знаков препинания, чисел, дубликатов. Также применяется фильтрация по длине строк или контекстуальная фильтрация, когда исключаются нецензурные слова или термины, неуместные по контексту.

Настройки блока

При настройке можно выбрать вариант фильтрации:

Минимальный. В таком случае удаляются неинформативные символы, например, знаки препинания, а также текст приводится к одному регистру – буквы становятся строчными;
Максимальный. При этой фильтрации происходит все, как при минимальной, но при этом еще удаляются стоп-слова.

Векторизация

Применение блока

Векторизация текста – это процесс преобразования текстовых данных в числовой формат, который может быть использован для последующего анализа и обработки в алгоритмах машинного обучения и обработки естественного языка (NLP). Кроме этого, векторизация позволяет анализировать текст и выявлять важные паттерны, тенденции и связи между словами или документами. Она может быть использована для уменьшения размерности данных за счет оптимизации количества признаков, что особенно полезно при работе с большими объемами текста.

Параметры блока

Укажите параметры блока:

Выберите один из методов векторизации. Выбираются все признаки в датасете для расчета коэффициента асимметрии:

TD IDF (от англ. TF – term frequency, IDF – inverse document frequency) – это метод, который помогает определить важность слова в конкретном документе. Если слово часто встречается в одном документе, но редко в других, значит оно несет важную информацию для этого конкретного документа;
Word to Vec – данный метод использует контекст, чтобы сформировать численные представления слов, в результате слова, используемые в одном и том же контексте, имеют похожие векторы. Если эти слова близки по смыслу, как, например, король и королева, то их вектора будут похожи. Например, «0, 3, 5, 6» – это «король», а «0, 3, 5, 7» – «королева»;
Bag of words (с англ. «мешок слов») – представление текста в виде массива, который состоит из отдельных слов и количества их использования. В результате получается словарь из уникальных слов и их количества по предложениям и всему тексту в целом. Недостаток метода в том, что с увеличением объема анализируемого текста происходит рост размерности массива: каждое уникальное слово добавляет новый столбец. Это создает дополнительную сложность при анализе;
Doc to Vec – метод использует ту же логику, что и Word 2 Vec, но применяет ее к уровню документа.

Также укажите размерность выходного вектора – примерное количество уникальных слов в тексте.