Предобработка данных – это этап в процессе обучения интеллектуальных моделей, который включает в себя подготовку и оптимизацию сырых данных, чтобы они были готовы к анализу и обучению.
Токенизация текста
Применение блока
Функция блока – разделение текстовой строки на отдельные элементы, называемые токенами (словами, предложениями или символами), для подготовки текста к анализу.
Токенизация текста – этап предобработки, который включает в себя разделение текста на более мелкие единицы, называемые токенами. Они могут быть словами, фразами или даже символами. Например, разделение на токены позволяет представить текст в более управляемой и организованной форме. Это делает его удобным для дальнейшего анализа и обработки.
Настройки блока
Для работы блока не требуются дополнительные настройки вручную.
Label Encoding
Применение блока
Label Encoding — это метод преобразования категориальных данных в числовой формат. Это позволяет использовать их в алгоритмах машинного обучения и других аналитических процессах. Метод присваивает уникальные целые числа каждому уникальному значению категориального признака.
Каждое уникальное значение категориальной переменной заменяется на целое число, начиная с нуля. Например, для категориального признака «Цвет» с возможными значениями «Красный», «Зеленый» и «Синий» преобразование может выглядеть следующим образом:
- Красный → 0
- Зеленый → 1
- Синий → 2
Label Encoding особенно полезен, когда категории имеют некоторую иерархию или порядок (например, «Низкий», «Средний», «Высокий»).
Настройки блока
Укажите признаки, над которыми необходимо провести операцию кодирования: Нецелевые, Целевые или Выбранные.
Стандартизация текста
Применение блока
Стандартизация – преобразование и приведение признаков датасета к единому формату. Она выполняется, чтобы сгладить большие различия между диапазонами признаков датасета и предотвратить искаженное восприятие данных моделью машинного обучения.
Настройки блока
Укажите признаки, над которыми необходимо провести операцию кодирования: Нецелевые, Целевые или Выбранные.
При активации параметра значения признаков будут заменены на стандартизированные.
One-Hot Encoding
Применение блока
Метод One Hot Encoding (OHE) применяется, когда в датасете необходимо закодировать категориальные признаки (текстовые) перед подачей в модель. Для кодируемого категориального признака создаются N новых столбцов в датасете, где N – количество уникальных категорий. Значения в новых столбцах – 0 или 1, в зависимости от принадлежности к категории. Каждый новый признак – бинарный характеристический признак категории.
Настройки блока
Укажите признаки, над которыми необходимо провести операцию кодирования: Нецелевые, Целевые или Выбранные.
Нормализация
Применение блока
Нормализация – это приведение числовых признаков к единой шкале.
Иногда числовой признак имеет минимальное и максимальное значение в очень широком диапазоне, это плохо для машинного обучения. Например, минимальное значение – 0,001, а максимальное – 100000. С помощью нормализации можно преобразовать их к диапазону от 0 до 1. Таким образом 0,001 становится 0, а 100000 становится 1. Значения между ними также преобразовываются, 50000 становится примерно равным 0,5. Данная функция позволяет оптимизировать дальнейшие вычисления.
Настройки блока
Укажите признаки, над которыми необходимо провести операцию кодирования: Нецелевые, Целевые или Выбранные.
Преобразование распределения к нормальному
Применение блока
Блок используется для изменения распределения данных так, чтобы оно стало похоже на нормальное (гауссовское) распределение. Это особенно важно для задач, где многие статистические методы и алгоритмы машинного обучения предполагают нормальность данных.
Настройки блока
Выберите один из параметров:
- Логарифмическое преобразование. Применяется к положительным данным, заменяя каждое значение x на log(x). Эффективно для данных с логнормальным распределением или когда данные имеют значительный разброс. Уменьшает большие значения и делает распределение более симметричным.
- Преобразование Бокс-Кокса. Метод делает данные более «нормальными», они будут более симметричными и схожими с привычной колоколообразной формой.
Метод включает в себя математическую формулу, которая изменяет данные в зависимости от параметра λ (лямбда). Преобразование Бокс-Кокса полезно, когда вы работаете с регрессионными моделями или другими статистическими анализами, и хотите улучшить качество модели, уменьшив влияние выбросов и сделав данные более предсказуемыми.
- Преобразование Йео-Джонсона. Расширение Бокс-Кокс, которое может обрабатывать как положительные, так и отрицательные значения. Формула зависит от значения x. Обеспечивает большее разнообразие преобразований и улучшает нормализацию для различных наборов данных. Подходит для предобработки данных в задачах машинного обучения, таких как регрессия, когда необходимо улучшить нормальность признаков.
Лемматизация
Применение блока
Лемматизация – это процесс приведения всех встречающихся форм слова к одной, нормальной словарной форме. В процессе лемматизации платформа использует словарь и морфологический анализ, чтобы привести слово к его канонической форме – т.н. «лемме», в итоге получается текст, состоящий из слов приведенных к единственному числу, мужскому роду, именительному падежу и инфинитиву (в зависимости от части речи). Для разных частей речи определена своя лемма: для существительных это именительный падеж единственного числа, для прилагательных – именительный падеж единственного числа мужского рода, для глагола – инфинитив (неопределенная форма) несовершенного вида.
Настройки блока
Укажите признаки, над которыми необходимо провести операцию кодирования: Нецелевые, Целевые или Выбранные.
Фильтрация текста
Применение блока
Фильтрация текста – этап предобработки, который включает в себя удаление нежелательных элементов из текстовых данных для подготовки их к анализу и машинному обучению. Это помогает улучшить качество данных, снизить шум и повысить эффективность последующих этапов обработки. Например, удаление стоп-слов, знаков препинания, чисел, дубликатов. Также применяется фильтрация по длине строк или контекстуальная фильтрация, когда исключаются нецензурные слова или термины, неуместные по контексту.
Настройки блока
При настройке можно выбрать вариант фильтрации:
- Минимальный. В таком случае удаляются неинформативные символы, например, знаки препинания, а также текст приводится к одному регистру – буквы становятся строчными;
- Максимальный. При этой фильтрации происходит все, как при минимальной, но при этом еще удаляются стоп-слова.
Векторизация
Применение блока
Векторизация текста – это процесс преобразования текстовых данных в числовой формат, который может быть использован для последующего анализа и обработки в алгоритмах машинного обучения и обработки естественного языка (NLP). Кроме этого, векторизация позволяет анализировать текст и выявлять важные паттерны, тенденции и связи между словами или документами. Она может быть использована для уменьшения размерности данных за счет оптимизации количества признаков, что особенно полезно при работе с большими объемами текста.
Параметры блока
Укажите параметры блока:
- Выберите один из методов векторизации. Выбираются все признаки в датасете для расчета коэффициента асимметрии:
- TD IDF (от англ. TF – term frequency, IDF – inverse document frequency) – это метод, который помогает определить важность слова в конкретном документе. Если слово часто встречается в одном документе, но редко в других, значит оно несет важную информацию для этого конкретного документа;
- Word to Vec – данный метод использует контекст, чтобы сформировать численные представления слов, в результате слова, используемые в одном и том же контексте, имеют похожие векторы. Если эти слова близки по смыслу, как, например, король и королева, то их вектора будут похожи. Например, «0, 3, 5, 6» – это «король», а «0, 3, 5, 7» – «королева»;
- Bag of words (с англ. «мешок слов») – представление текста в виде массива, который состоит из отдельных слов и количества их использования. В результате получается словарь из уникальных слов и их количества по предложениям и всему тексту в целом. Недостаток метода в том, что с увеличением объема анализируемого текста происходит рост размерности массива: каждое уникальное слово добавляет новый столбец. Это создает дополнительную сложность при анализе;
- Doc to Vec – метод использует ту же логику, что и Word 2 Vec, но применяет ее к уровню документа.
- Также укажите размерность выходного вектора – примерное количество уникальных слов в тексте.