Данный сценарий предполагает решение задачи разделения текстовых данных на кластеры. В качестве источника используются сообщения на форуме, а задача платформы научиться определять позитивные и негативные комментарии, разделив их на соответствующие кластеры.
Для решения задачи выполните следующие действия:
- Загрузка данных на платформу. Набор данных состоит из файла в формате .csv, где каждая строка представляет собой комментарий с форума.
- Перейдите в раздел данные и нажмите кнопку «Создать»
- В открывшейся в поле «Тип» выберите значение «Категория», в поле «Название» введите название новой группы, например «Данные для кластеризации текстов», и нажмите кнопку «Создать».
Создание папки в разделе данные
- Перейдите в созданную папку «Данные для кластеризации текстов» и загрузите в неё заранее приготовленный файл с комментариями. Для этого нажмите кнопку «Загрузить». Откроется окно загрузки файлов:
Окно загрузки файлов
- Для выбора файлов кликните в область окна «Выберите файлы» или перетащите их по технологии drag and drop (из окна папки на вашем ПК в окно браузера).
- Если по ошибке был выбран не тот файл, вы можете удалить его, нажав на крестик в правой части строки с его названием.
- Нажмите кнопку Загрузить:
Выбранные файлы в окне загрузки
- В результате загруженный файл отобразится в папке.
- Построение блок-схемы
- Создание новой рабочей области. Перейдите в раздел «Моделирование» -> Рабочая область. Нажав на в верхней части экрана, создайте новую рабочую область с названием «Тексты».
- Блок запуск. Добавьте на рабочую область элемент «Запуск»:
Добавление элемента Запуск на рабочую область
Дважды кликните на название элемента, чтобы переименовать его в «Классификация текстов»:
- Блок Источник данных. Добавьте на рабочую область элемент «Источник данных» и в качестве функции выберите «Загрузка текстовых файлов для кластеризации».
- В разделе «Группа текстов для кластеризации» выберите ранее созданную папку нажав на три точки в строке с ее наименованием и кликнув «Выбрать», в результате папка отобразится в нижней части списка.
- Сохраните настройки блока
- Соедините элементы блок схемы:
Соединение элементов блок схемы
- Блок Процесс, Фильтрация шума. Добавьте на рабочую область элемента процесс. Выберите функцию «Предобработка данных» -> «Фильтрация текстового шума». Нажмите «Сохранить».
- Переименуйте блок в «Очистка от шума»
- Соедините элементы:
Соединение элементов блок схемы
- Блок Процесс, Лемматизация. Добавьте на рабочую область элемента процесс. Выберите функцию «Предобработка данных» -> «Лемматизация текста». Нажмите «Сохранить».
- Переименуйте блок в «Лемматизация»
- Соедините элементы:
Соединение элементов блок схемы
- Блок Процесс, Векторизация. Добавьте на рабочую область элемент процесс. Выберите функцию «Предобработка данных» -> «Векторизация текста».
- В параметрах блока выберите «Метод векторизации»: TD IDF; «Максимальная размерность текста» – 1000; «Количество признаков» – 1000:
Параметры блока «Векторизация текста»
- Сохраните параметры блока
- Переименуйте блок в «Вектор»
- Соедините элементы:
Соединение элементов блок схемы
- Блок Процесс, Кластеризация K-Means. Добавьте на рабочую область элемент процесс. Выберите функцию «Обучение без учителя» -> «Кластеризация K-Means».
- В параметрах блока выберите «Число кластеров»: 2; Не нужно устанавливать галочку в поле «Оптимизация гиперпараметров»:
Параметры блока «Кластеризация K-Means»
- Сохраните параметры блока
- Переименуйте блок в «kMeans»
- Соедините элементы:
Соединение элементов блок схемы
- Блок Процесс, Кластеризация DBSCAN. Добавьте на рабочую область элемент процесс. Выберите функцию «Обучение без учителя» -> «Кластеризация DBSCAN».
- В параметрах блока выберите «Радиус»: 0,5; «Число соседей»: 10; «Метрика расстояния»: Евклидово; Не нужно устанавливать галочку в поле «Оптимизация гиперпараметров»:
Параметры блока «Кластеризация DBSCAN»
- Сохраните параметры блока
- Переименуйте блок в «DBSCAN»
- Соедините элементы:
Соединение элементов блок схемы
- Запуск блок-схемы. Чтобы запустить собранную блок-схему нажмите кнопку «» на первом элементе блок-схемы – «Запуск». После этого внешний вид блока изменится и появится возможность создания отчета, активируйте настройку при необходимости. Повторно нажмите кнопку «Запуск», блок схема начнет обрабатывать блоки. После того, как все блоки отработают с зелеными индикаторами, процесс запуска считается успешно пройденным.
- Визуализация результатов. После успешной отработки блок схемы на верхней панели активируются кнопки визуализации:
Нажав на иконку с таблицей, вы сможете выбрать из следующих доступных визуализаций:
- Отфильтрованные текстовые данные
- Лемматизированные текстовые данные
- Количество объектов в каждом кластере: