Knowledge base

Knowledge base

Close

Словарь терминов

ТерминОпределение
Apache kafkaБрокер сообщений, реализующий паттерн Producer-Consumer. Данные из одного и того же топика могут считываться множеством консьюмер-групп одновременно.
Apache SparkФреймворк с открытым исходным кодом для реализации распределенной обработки неструктурированных и слабоструктурированных данных.
BPMN (Business Process Model and Notation). Нотация и модель бизнес-процессов.
YOLO(You Only Look Once). Архитектура нейронных сетей, предназначенная для детекции объектов на изображении. Отличительной особенностью является подход к решению задачи детекции:Исходное изображение сжимается таким образом, чтобы получить квадратную матрицу размером 13 на 13, в каждой клетке которой записана информация о наличии объекта и классе этого объекта на соответствующей части картинки. Таким образом, YOLO просматривает картинку один раз, что существенно увеличивает скорость обработки.
YOLOv5Усовершенствованная пятая версия YOLO, реализованная на фреймворке PyTorch.
Временной рядСовокупность наблюдений, собранных за определенный временной интервал. Этот тип данных используется для поиска долгосрочного тренда, прогнозирования будущего и прочих видов анализа.
Анализ временных рядов позволяет обнаруживать тенденции и закономерности в исследуемых процессах, строить прогнозы и предсказывать будущие изменения в бизнесе, на производстве, и в других областях.
ВыборкаСлучайное подмножество генеральной совокупности.
Датасет (с англ. Data set, набор данных)Коллекция из логических записей, хранящихся в виде кортежа. Набор данных можно сравнить с файлом, но в отличие от файла он является одновременно и каталогом, и файлом файловой системы, и не может содержать в себе другие наборы.Файловая система ориентирована на хранение записей, которые являются неделимыми единицами хранения. Множества записей объединяются в группы, которые и называются наборами данных. Записи в наборах данных используются приложениями, например, как входные данные. Так, записями набора данных могут быть как текстовые данные, так и изображения. К набору данных можно обратиться, указав точное место его хранения, или, если ранее для набора было зазервировано имя в файловой системе, по имени (второй вариант не реализован).Также датасетом называются данные, которые пользователь загрузил с локального компьютера, а Система при загрузке выполнила их предварительную обработку. Например, в систему загружается временной ряд в формате csv, и при загрузке он преобразуется в структурированные данные или по-другому датасет. Такой датасет пригоден для использования в моделях машинного обучения.
Дашборд
Дерево решенийИнструмент прогнозного моделирования. Строится с помощью алгоритмического подхода, который разделяет набор данных на основе различных условий. Относится к классу обучения с учителем, используется для задач классификации и регрессии. Цель в том, чтобы создать модель, которая предсказывает значение целевой переменной, изучая правила принятия решений, выведенные из характеристик данных.Алгоритм:Выбрать лучший атрибут, который разделяет наблюдения на группы.Задать соответствующий вопрос.Следовать по путям ответов.Вернуться к шагу 1.
ДисперсияМера удаленности того или иного значения выборки от среднего значения.Рассчитывается по формуле:,где – дисперсия случайной величины, – i-ый элемент выборки, – среднее арифметическое, – количество элементов выборки. Стандартное отклонение рассчитывается как квадратный корень из полученной цифры.
Интеллектуальный анализ текстов (ИАТ, с англ. text mining)Направление в искусственном интеллекте, целью которого является получение информации из коллекции текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Ключевыми группами задач ИАТ являются: категоризация текстов, извлечение информации и информационный поиск, изменение информации в коллекциях текстов.Категоризация документов заключается в отнесении документов из коллекции к одной или нескольким группам (классам, кластерам) схожих между собой текстов. Категоризация с участием человека называется классификацией документов, система ИАТ должна отнести тексты к уже определенным классам. Для этого производится обучение с учителем, для чего пользователь предоставляет системе ИАТ как множество классов, так и образцы документов, принадлежащих этим классам.
Второй случай категоризации называется кластеризацией документов. При этом система ИАТ сама определяет множество кластеров, по которым могут быть распределены тексты (производится обучение без учителя). В этом случае пользователь сообщает системе ИАТ количество кластеров, на которое ему хотелось бы разбить обрабатываемую коллекцию (в алгоритме программы уже заложена процедура выбора признаков).
Категориальная переменная (качественные данные)Это данные с ограниченным числом уникальных значений или категорий (например, пол, страна проживания, номер группы, категория товаров, и т.п.). Категориальные поля могут быть как текстовыми, так и числовыми, в которых категории закодированы числовыми кодами (например, 0=женский, а 1=мужской). Номинальные поля, порядковые поля и флаги являются категориальными полями. –Набор (номинальная переменная). Поле, значения которого представляют категории без естественного упорядочивания (например, подразделение компании, в котором работает сотрудник).-Упорядоченный набор (порядковая переменная). Поле, значения которого представляют категории с некоторым естественным для них упорядочением (например, оценки, представляющие степень удовлетворенности или уверенности, или баллы, оценивающие предпочтение). –Флаг. Поле или переменная с двумя отдельными значениями, например Да и Нет.
КлассификацияЗадача машинного обучения, которая ставит своей целью назначить метку класса наблюдениям из предметной области.Основные типы классификации:бинарная классификация;мультиклассовая классификация;классификация по нескольким меткам;несбалансированная классификация.
КластеризацияТехника обучения без учителя, которая включает в себя группирование или кластеризацию точек данных. Чаще всего она используется для сегментации потребителей, выявления мошенничества и классификации документов.Кластеризация (или кластерный анализ) – это задача разбиения множества объектов на группы, называемые кластерами.
Главное отличие от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.
Машинное обучение (ML – Machine learning)Тренировка математической модели на исторических данных для того, чтобы прогнозировать какое-то событие или явление на новых данных. То есть попытка заставить алгоритмы программ совершать действия на основе предыдущего опыта, а не только на основе имеющихся данных.Для обучения нужны исторические данные (обучающая выборка) и значение целевой переменной (то, что прогнозируем), которое соответствует заданным историческим данным. Модель наблюдает и находит зависимости между данными и целевой переменной. Эти зависимости используются моделью для нового набора данных, чтобы прогнозировать целевую переменную, которая неизвестна.Машинное обучение включает в себя целый набор методов и алгоритмов, которые могут предсказать какой-то результат по входным данным.Алгоритмов машинного обучения большое множество: одни эффективны для решения одного типа задач, вторые – для другого.Суть технологии машинного обученияГоворя в общем, машинное обучение – это обучение компьютерной программы или алгоритма постепенному улучшению исполнения поставленной задачи.Машинное обучение обозначает множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных.
Решение вычисляется не по четкой формуле, а по установленной зависимости результатов от конкретного набора признаков и их значений. Например, если каждый день в течение недели земля покрыта снегом и температура воздуха существенно ниже нуля, то вероятнее всего, наступила зима. Поэтому машинное обучение применяется для диагностики, прогнозирования, распознавания и принятия решений в различных прикладных сферах: от медицины до банковской деятельности.
МониторингПроцесс наблюдения и регистрации данных о каком-либо объекте на неразрывно примыкающих друг к другу интервалах времени, в течение которых значения данных существенно не изменяются .
Мониторинг состоянияНаблюдение за состоянием объекта для определения и предсказания момента перехода в предельное состояние. Результат мониторинга состояния объекта представляет собой совокупность диагнозов составляющих его субъектов, получаемых на неразрывно примыкающих друг к другу интервалах времени, в течение которых состояние объекта существенно не изменяется. Принципиальное отличие от мониторинга параметров является наличие интерпретатора измеренных параметров в терминах состояния – экспертной системы поддержки принятия решений о состоянии объекта и дальнейшем управлении.
Наблюдение (строка, запись, точка, сущность)Ценные данные, собираемые во время исследования или эксперимента. Вместе с масштабом анализа определяет совокупность.Эмпирические исследования – практические эксперименты с результатами на основе реального опыта, а не теории или убеждений. Основополагающим принципом Науки о данных является приоритет наблюдения над предположением. Типы наблюдений:Числовой: целые (integer), вещественные (real number), числа с плавающей точкой (float).Булевый (boolean) – принимает значения 1/0 (да/нет).Категориальный. Например, жанры кино: комедия, ужасы, мелодрама.Текстовый.Вектор.
Нейронная сеть (или Искусственная нейронная сеть)Представляет собой математическую модель, а также её программное или аппаратное воплощение, построенную по принципу организации и функционирования биологических нейронных сетей – сетей нервных клеток живого организма.Нейронные сети решают задачу: по точкам находят функцию. Происходит это путем минимизации ошибки – сводится к минимуму «расстояние» между значениями, предсказываемыми нейронной сетью, и значениями, которые наблюдаются.Под архитектурой нейронной сети понимается ее устройство – последовательность нейронов и связей между ними.
НормализацияТехника преобразования значений признака, масштабирующая значения таким образом, что они расположены в диапазоне от 0 до 1.
Обучение с учителемКонтролируемое обучение – метод машинного обучения, при котором модель обучается на размеченных данных. Например, исследовав опухли, установив их размер, плотность и другие метрики, мы передаем эти данные модели с обязательной пометкой, какое наблюдение к какому строению (доброкачественному или злокачественному) относится.Алгоритмы контролируемого обучения подразделяются на следующие модели: классификация, регрессия.
Пайплайн (с англ. Pipeline)Последовательность стадий, внутри которых расположены задачи. Расположены они таким образом, что выход каждого элемента является входом следующего.
ПризнакОбъективная характеристика, характерная черта или свойство, которое может быть определено или измерено.В статистике независимые переменные X используются для предсказания зависимого признака Y
Регрессия (в математической статистике)Математическое выражение, отражающее связь между зависимой переменной y и независимыми переменными x.Алгоритмы регрессии используются для контролируемого обучения моделей искусственного интеллекта. Модели обучают прогнозировать числовые значения целевых переменных.
In this article: