Термин | Определение |
Apache kafka | Брокер сообщений, реализующий паттерн Producer-Consumer. Данные из одного и того же топика могут считываться множеством консьюмер-групп одновременно. |
Apache Spark | Фреймворк с открытым исходным кодом для реализации распределенной обработки неструктурированных и слабоструктурированных данных. |
BPMN | (Business Process Model and Notation). Нотация и модель бизнес-процессов. |
YOLO | (You Only Look Once). Архитектура нейронных сетей, предназначенная для детекции объектов на изображении. Отличительной особенностью является подход к решению задачи детекции:Исходное изображение сжимается таким образом, чтобы получить квадратную матрицу размером 13 на 13, в каждой клетке которой записана информация о наличии объекта и классе этого объекта на соответствующей части картинки. Таким образом, YOLO просматривает картинку один раз, что существенно увеличивает скорость обработки. |
YOLOv5 | Усовершенствованная пятая версия YOLO, реализованная на фреймворке PyTorch. |
Временной ряд | Совокупность наблюдений, собранных за определенный временной интервал. Этот тип данных используется для поиска долгосрочного тренда, прогнозирования будущего и прочих видов анализа. Анализ временных рядов позволяет обнаруживать тенденции и закономерности в исследуемых процессах, строить прогнозы и предсказывать будущие изменения в бизнесе, на производстве, и в других областях. |
Выборка | Случайное подмножество генеральной совокупности. |
Датасет (с англ. Data set, набор данных) | Коллекция из логических записей, хранящихся в виде кортежа. Набор данных можно сравнить с файлом, но в отличие от файла он является одновременно и каталогом, и файлом файловой системы, и не может содержать в себе другие наборы.Файловая система ориентирована на хранение записей, которые являются неделимыми единицами хранения. Множества записей объединяются в группы, которые и называются наборами данных. Записи в наборах данных используются приложениями, например, как входные данные. Так, записями набора данных могут быть как текстовые данные, так и изображения. К набору данных можно обратиться, указав точное место его хранения, или, если ранее для набора было зазервировано имя в файловой системе, по имени (второй вариант не реализован).Также датасетом называются данные, которые пользователь загрузил с локального компьютера, а Система при загрузке выполнила их предварительную обработку. Например, в систему загружается временной ряд в формате csv, и при загрузке он преобразуется в структурированные данные или по-другому датасет. Такой датасет пригоден для использования в моделях машинного обучения. |
Дашборд | |
Дерево решений | Инструмент прогнозного моделирования. Строится с помощью алгоритмического подхода, который разделяет набор данных на основе различных условий. Относится к классу обучения с учителем, используется для задач классификации и регрессии. Цель в том, чтобы создать модель, которая предсказывает значение целевой переменной, изучая правила принятия решений, выведенные из характеристик данных.Алгоритм:Выбрать лучший атрибут, который разделяет наблюдения на группы.Задать соответствующий вопрос.Следовать по путям ответов.Вернуться к шагу 1. |
Дисперсия | Мера удаленности того или иного значения выборки от среднего значения.Рассчитывается по формуле:,где – дисперсия случайной величины, – i-ый элемент выборки, – среднее арифметическое, – количество элементов выборки. Стандартное отклонение рассчитывается как квадратный корень из полученной цифры. |
Интеллектуальный анализ текстов (ИАТ, с англ. text mining) | Направление в искусственном интеллекте, целью которого является получение информации из коллекции текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Ключевыми группами задач ИАТ являются: категоризация текстов, извлечение информации и информационный поиск, изменение информации в коллекциях текстов.Категоризация документов заключается в отнесении документов из коллекции к одной или нескольким группам (классам, кластерам) схожих между собой текстов. Категоризация с участием человека называется классификацией документов, система ИАТ должна отнести тексты к уже определенным классам. Для этого производится обучение с учителем, для чего пользователь предоставляет системе ИАТ как множество классов, так и образцы документов, принадлежащих этим классам. Второй случай категоризации называется кластеризацией документов. При этом система ИАТ сама определяет множество кластеров, по которым могут быть распределены тексты (производится обучение без учителя). В этом случае пользователь сообщает системе ИАТ количество кластеров, на которое ему хотелось бы разбить обрабатываемую коллекцию (в алгоритме программы уже заложена процедура выбора признаков). |
Категориальная переменная (качественные данные) | Это данные с ограниченным числом уникальных значений или категорий (например, пол, страна проживания, номер группы, категория товаров, и т.п.). Категориальные поля могут быть как текстовыми, так и числовыми, в которых категории закодированы числовыми кодами (например, 0=женский, а 1=мужской). Номинальные поля, порядковые поля и флаги являются категориальными полями. –Набор (номинальная переменная). Поле, значения которого представляют категории без естественного упорядочивания (например, подразделение компании, в котором работает сотрудник).-Упорядоченный набор (порядковая переменная). Поле, значения которого представляют категории с некоторым естественным для них упорядочением (например, оценки, представляющие степень удовлетворенности или уверенности, или баллы, оценивающие предпочтение). –Флаг. Поле или переменная с двумя отдельными значениями, например Да и Нет. |
Классификация | Задача машинного обучения, которая ставит своей целью назначить метку класса наблюдениям из предметной области.Основные типы классификации:бинарная классификация;мультиклассовая классификация;классификация по нескольким меткам;несбалансированная классификация. |
Кластеризация | Техника обучения без учителя, которая включает в себя группирование или кластеризацию точек данных. Чаще всего она используется для сегментации потребителей, выявления мошенничества и классификации документов.Кластеризация (или кластерный анализ) – это задача разбиения множества объектов на группы, называемые кластерами. Главное отличие от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма. |
Машинное обучение (ML – Machine learning) | Тренировка математической модели на исторических данных для того, чтобы прогнозировать какое-то событие или явление на новых данных. То есть попытка заставить алгоритмы программ совершать действия на основе предыдущего опыта, а не только на основе имеющихся данных.Для обучения нужны исторические данные (обучающая выборка) и значение целевой переменной (то, что прогнозируем), которое соответствует заданным историческим данным. Модель наблюдает и находит зависимости между данными и целевой переменной. Эти зависимости используются моделью для нового набора данных, чтобы прогнозировать целевую переменную, которая неизвестна.Машинное обучение включает в себя целый набор методов и алгоритмов, которые могут предсказать какой-то результат по входным данным.Алгоритмов машинного обучения большое множество: одни эффективны для решения одного типа задач, вторые – для другого.Суть технологии машинного обученияГоворя в общем, машинное обучение – это обучение компьютерной программы или алгоритма постепенному улучшению исполнения поставленной задачи.Машинное обучение обозначает множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных. Решение вычисляется не по четкой формуле, а по установленной зависимости результатов от конкретного набора признаков и их значений. Например, если каждый день в течение недели земля покрыта снегом и температура воздуха существенно ниже нуля, то вероятнее всего, наступила зима. Поэтому машинное обучение применяется для диагностики, прогнозирования, распознавания и принятия решений в различных прикладных сферах: от медицины до банковской деятельности. |
Мониторинг | Процесс наблюдения и регистрации данных о каком-либо объекте на неразрывно примыкающих друг к другу интервалах времени, в течение которых значения данных существенно не изменяются . |
Мониторинг состояния | Наблюдение за состоянием объекта для определения и предсказания момента перехода в предельное состояние. Результат мониторинга состояния объекта представляет собой совокупность диагнозов составляющих его субъектов, получаемых на неразрывно примыкающих друг к другу интервалах времени, в течение которых состояние объекта существенно не изменяется. Принципиальное отличие от мониторинга параметров является наличие интерпретатора измеренных параметров в терминах состояния – экспертной системы поддержки принятия решений о состоянии объекта и дальнейшем управлении. |
Наблюдение (строка, запись, точка, сущность) | Ценные данные, собираемые во время исследования или эксперимента. Вместе с масштабом анализа определяет совокупность.Эмпирические исследования – практические эксперименты с результатами на основе реального опыта, а не теории или убеждений. Основополагающим принципом Науки о данных является приоритет наблюдения над предположением. Типы наблюдений:Числовой: целые (integer), вещественные (real number), числа с плавающей точкой (float).Булевый (boolean) – принимает значения 1/0 (да/нет).Категориальный. Например, жанры кино: комедия, ужасы, мелодрама.Текстовый.Вектор. |
Нейронная сеть (или Искусственная нейронная сеть) | Представляет собой математическую модель, а также её программное или аппаратное воплощение, построенную по принципу организации и функционирования биологических нейронных сетей – сетей нервных клеток живого организма.Нейронные сети решают задачу: по точкам находят функцию. Происходит это путем минимизации ошибки – сводится к минимуму «расстояние» между значениями, предсказываемыми нейронной сетью, и значениями, которые наблюдаются.Под архитектурой нейронной сети понимается ее устройство – последовательность нейронов и связей между ними. |
Нормализация | Техника преобразования значений признака, масштабирующая значения таким образом, что они расположены в диапазоне от 0 до 1. |
Обучение с учителем | Контролируемое обучение – метод машинного обучения, при котором модель обучается на размеченных данных. Например, исследовав опухли, установив их размер, плотность и другие метрики, мы передаем эти данные модели с обязательной пометкой, какое наблюдение к какому строению (доброкачественному или злокачественному) относится.Алгоритмы контролируемого обучения подразделяются на следующие модели: классификация, регрессия. |
Пайплайн (с англ. Pipeline) | Последовательность стадий, внутри которых расположены задачи. Расположены они таким образом, что выход каждого элемента является входом следующего. |
Признак | Объективная характеристика, характерная черта или свойство, которое может быть определено или измерено.В статистике независимые переменные X используются для предсказания зависимого признака Y |
Регрессия (в математической статистике) | Математическое выражение, отражающее связь между зависимой переменной y и независимыми переменными x.Алгоритмы регрессии используются для контролируемого обучения моделей искусственного интеллекта. Модели обучают прогнозировать числовые значения целевых переменных. |
Knowledge base
Knowledge base
Close
- Установка платформы
- Установка кластера
- Типы и форматы данных
- Сообщить об ошибке
- Словарь терминов
- Сетевое хранилище (NFS)
- Работа с приложениями
- Работа с отчетами
- Работа с данными
- Обучение без учителя
- О системе
- Машинное обучение
- Логирование
- Контроль версионности системы
- История изменений
- Загрузка данных
- Глубокое обучение
- Визуализация табличных данных на дашборде
- Визуализация изображений и видео
- Визуализация из внешней базы данных
- Визуализация графиков на дашборде
- Визуализация в режиме реального времени
- Безопасность
- Анализ данных
- Анализ данных
- Spark
- Kubernetes
- Kubernetes оркестрация
- FAQ