Knowledge base

Knowledge base

Close

Кластеризация текстов

Данный сценарий предполагает решение задачи разделения текстовых данных на кластеры. В качестве источника используются сообщения на форуме, а задача платформы научиться определять позитивные и негативные комментарии, разделив их на соответствующие кластеры.  

Для решения задачи выполните следующие действия:

  1. Загрузка данных на платформу. Набор данных состоит из файла в формате .csv, где каждая строка представляет собой комментарий с форума.
    1. Перейдите в раздел данные и нажмите кнопку «Создать»
    2. В открывшейся в поле «Тип» выберите значение «Категория», в поле «Название» введите название новой группы, например «Данные для кластеризации текстов», и нажмите кнопку «Создать». 

Создание папки в разделе данные

  1. Перейдите в созданную папку «Данные для кластеризации текстов» и загрузите в неё заранее приготовленный файл с комментариями. Для этого нажмите кнопку «Загрузить». Откроется окно загрузки файлов:

Окно загрузки файлов

  1. Для выбора файлов кликните в область окна «Выберите файлы» или перетащите их по технологии drag and drop (из окна папки на вашем ПК в окно браузера). 
  2. Если по ошибке был выбран не тот файл, вы можете удалить его, нажав на крестик в правой части строки с его названием.
  3. Нажмите кнопку Загрузить:

Выбранные файлы в окне загрузки

  1. В результате загруженный файл отобразится в папке.
  2. Построение блок-схемы
    1. Создание новой рабочей области. Перейдите в раздел «Моделирование» -> Рабочая область. Нажав на в верхней части экрана, создайте новую рабочую область с названием «Тексты».
    2. Блок запуск. Добавьте на рабочую область элемент «Запуск»:

Добавление элемента Запуск на рабочую область

Дважды кликните на название элемента, чтобы переименовать его в «Классификация текстов»:

  1. Блок Источник данных. Добавьте на рабочую область элемент «Источник данных» и в качестве функции выберите «Загрузка текстовых файлов для кластеризации».
    1. В разделе «Группа текстов для кластеризации» выберите ранее созданную папку нажав на три точки в строке с ее наименованием и кликнув «Выбрать», в результате папка отобразится в нижней части списка.
    2. Сохраните настройки блока
    3. Соедините элементы блок схемы:

Соединение элементов блок схемы

  1. Блок Процесс, Фильтрация шума. Добавьте на рабочую область элемента процесс. Выберите функцию «Предобработка данных» -> «Фильтрация текстового шума». Нажмите «Сохранить».
    1. Переименуйте блок в «Очистка от шума»
    2. Соедините элементы:

Соединение элементов блок схемы

  1. Блок Процесс, Лемматизация. Добавьте на рабочую область элемента процесс. Выберите функцию  «Предобработка данных» -> «Лемматизация текста». Нажмите «Сохранить».
    1. Переименуйте блок в «Лемматизация»
    2. Соедините элементы:


Соединение элементов блок схемы

  1. Блок Процесс, Векторизация. Добавьте на рабочую область элемент процесс. Выберите функцию «Предобработка данных» -> «Векторизация текста».
    1. В параметрах блока выберите «Метод векторизации»: TD IDF; «Максимальная размерность текста» – 1000; «Количество признаков» – 1000:

Параметры блока «Векторизация текста»

  1. Сохраните параметры блока
  2. Переименуйте блок в «Вектор»
  3. Соедините элементы:

Соединение элементов блок схемы

  1. Блок Процесс, Кластеризация K-Means. Добавьте на рабочую область элемент процесс. Выберите функцию «Обучение без учителя» -> «Кластеризация K-Means».
    1. В параметрах блока выберите «Число кластеров»: 2; Не нужно устанавливать галочку в поле «Оптимизация гиперпараметров»:

Параметры блока «Кластеризация K-Means»

  1. Сохраните параметры блока
  2. Переименуйте блок в «kMeans»
  3. Соедините элементы:

Соединение элементов блок схемы

  1. Блок Процесс, Кластеризация DBSCAN. Добавьте на рабочую область элемент процесс. Выберите функцию «Обучение без учителя» -> «Кластеризация DBSCAN».
    1. В параметрах блока выберите «Радиус»: 0,5; «Число соседей»: 10; «Метрика расстояния»: Евклидово; Не нужно устанавливать галочку в поле «Оптимизация гиперпараметров»:

Параметры блока «Кластеризация DBSCAN»

  1. Сохраните параметры блока
  2. Переименуйте блок в «DBSCAN»
  3. Соедините элементы:

Соединение элементов блок схемы

  1. Запуск блок-схемы. Чтобы запустить собранную блок-схему нажмите кнопку «» на первом элементе блок-схемы – «Запуск». После этого внешний вид блока изменится и появится возможность создания отчета, активируйте настройку при необходимости. Повторно нажмите кнопку «Запуск», блок схема начнет обрабатывать блоки. После того, как все блоки отработают с зелеными индикаторами, процесс запуска считается успешно пройденным.
  2. Визуализация результатов. После успешной отработки блок схемы на верхней панели активируются кнопки визуализации:

Нажав на иконку с таблицей, вы сможете выбрать из следующих  доступных визуализаций:

  • Отфильтрованные текстовые данные
  • Лемматизированные текстовые данные
  • Количество объектов в каждом кластере:
In this article: