Тема 6 (2). Лекции Технологии машинного обучения Технологии Nosql data Mining Глубокое обучение

Название	Лекции Технологии машинного обучения Технологии Nosql data Mining Глубокое обучение
Дата	01.03.2023
Размер	31.09 Kb.
Формат файла
Имя файла	Тема 6 (2).docx
Тип	Лекции #962965
страница	5 из 5

1 2 3 4 5

Регрессионный анализ

Регрессионный анализ – это метод моделирования измеряемых данных и исследования их свойств. Подобно задаче классификации метод регрессии позволяет определить по известным характеристикам объекта значение некоторого его параметра. В отличие от задачи классификации значением параметра является не конечное множество классов, а множество действительных чисел. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Регрессионный анализ раздел математической статистики и машинного обучения. Решение задачи классификации с помощью уравнения регрессии производится следующим образом. Линия регрессии визуально делит все множество исходных данных (или объектов) на два класса. Поэтому при регрессионном анализе больших данных необходимо: установить характер и форму зависимости между изучаемыми данными (регрессионная модель), описать функцию регрессии, выполнить оценку регрессионной модели.

По характеру и форме зависимости между данными выделяют виды регрессии:

положительная линейная;
положительная равноускоренно возрастающая;
положительная равнозамедленно возрастающая;
отрицательная линейная регрессия;
отрицательная равноускоренно убывающая;
отрицательная равнозамедленно убывающая.

Перечисленные разновидности регрессии встречаются в сочетании друг с другом. Поэтому для описания модели зависимости между переменными говорят о комбинированных формах регрессии.

После установления зависимости между изучаемыми данными возникает задача определения функции регрессии (уравнения) в виде

математического уравнения. Функция регрессии позволяет описать воздействие на зависимую переменную факторов или причин.

Оценка регрессионной модели сводится к вычислению неизвестных значений зависимой переменной на основе уравнения регрессии. Возможны два случая. В первом случае, оценка значений зависимой переменной производится внутри рассматриваемого интервала исходных данных (т.е. пропущенных значений), поэтому говорят об интерполировании данных. Во втором случае производится оценка будущих значений зависимой переменной, т.е. производится нахождение значений вне заданного интервала исходных данных, поэтому производится экстраполяция данных. В обоих случаях путем подстановки в уравнение регрессии найденных оценок параметров значений независимых переменных. Результат решения уравнения представляет собой оценку значения целевой (зависимой) переменной.

Деревья решений

К методам Data Mining и машинного обучения относят ассоциативные правила и деревья решений. Основной целью ассоциативных правил является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Данные зависимости описываются в виде правил и служат для классификации анализируемых данных, а также предсказания появления событий.

Дерево решений – это дерево, внутренние узлы которого моделируют выбор в зависимости от входных наблюдений, а вершины описывают категории (классы) объектов. Вся информация об объектах из предметной области представляется в виде конечного набора признаков, каждый из которых имеет качественное или количественное значение. Набор признаков не должен меняться от примера к примеру, и количество признаков должно быть фиксированным для всех обучающих примеров. При использовании деревья решений каждый объект в обучающей выборке должен быть

ассоциирован с конкретным классом, т.е. один из признаков должен быть выбран в качестве имени или номера класса. При этом классы должны содержать конечное число примеров и количество классов должно быть значительно меньше количества примеров. Дерево решений можно представить в виде правил с иерархической, последовательной структурой, где каждому объекту соответствует единственный узел, дающий решение.

Под решающим правилом понимается логическая конструкция в виде:

«если <посылка>, то <заключение>».

Деревья решений позволяют быстро и эффективно обработать большие данные. Область применения деревьев решений разнообразна. Данные методы используются для описания, классификации, регрессии. При описании исходных данных деревья решений позволяют хранить информацию в компактном виде в виде разнообразных структур данных (например, списков, словарей и др.). Наглядно отображать связи между исходными данными и целевой функцией.

Визуальный анализ данных

Визуальный анализ больших данных связан с процессом генерации гипотез, которые можно получить методами машинного обучения, метода статистического анализа. Визуальный анализ позволяет легко обрабатывать неоднородные и зашумленные данные, интуитивно понятен, не требует сложных математических алгоритмов. Среди достоинств визуального анализа перед автоматическими методами выделяют высокую степень конфиденциальности информации. Сведения, полученные в результате визуального анализа данных сосредоточены у аналитика данных и не сохраняются даже в оперативной памяти компьютера. Распространенной задачей обработки больших данных является анализ тенденций, трендов в больших наборах текстовых документов. Такой анализ необходим для составления аналитического отчета изменений результатов деятельности компании или группы компаний за определенный период.

6.5. Сервисы и программное обеспечение для обработки данных

MapReduce — модель распределённых параллельных вычислений в компьютерных кластерах, представленная компанией Google. Согласно этой модели приложение разделяется на большое количество одинаковых элементарных заданий, выполняемых на узлах кластера и затем естественным образом сводимых в конечный результат.

MapReduce – это модель распределенной обработки данных, предложенная компанией Google для обработки больших объёмов данных на компьютерных кластерах. MapReduce неплохо иллюстрируется следующей картинкой (взято по ссылке):

MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии:

Стадия Map. На этой стадии данные предобрабатываются при помощи функции map(), которую определяет пользователь. Работа этой стадии заключается в предобработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирования – пользовательская функция применяется к каждой входной записи.

Функция map() примененная к одной входной записи и выдаёт множество пар ключ-значение. Множество – т.е. может выдать только одну запись, может не выдать ничего, а может выдать несколько пар ключ- значение. Что будет находится в ключе и в значении – решать пользователю, но ключ – очень важная вещь, так как данные с одним ключом в будущем попадут в один экземпляр функции reduce.

Стадия Shuffle. Проходит незаметно для пользователя. В этой стадии вывод функции map «разбирается по корзинам» – каждая корзина соответствует одному ключу вывода стадии map. В дальнейшем эти корзины послужат входом для reduce.
Стадия Reduce. Каждая «корзина» со значениями, сформированная на стадии shuffle, попадает на вход функции reduce().

Функция reduce задаётся пользователем и вычисляет финальный результат для отдельной «корзины». Множество всех значений, возвращённых функцией reduce(), является финальным результатом MapReduce-задачи.

Hadoop — свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Это одна из основополагающих технологий больших данных.

Apache Hadoop – ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций[2]. Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. Практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.

Главные задачи платформы Hadoop — хранение, обработка и управление данными.

Список литературы

Статьи в журналах

Laney D. 3D data management: Controlling data volume, velocity and variety //META Group Research Note. – 2001. – Т. 6. – С. 70
Wang Y. Business intelligence and analytics education: Hermeneutic literature review and future directions in is education //Browser Download This Paper. – 2015.

Кравченко В. О., Крюкова А. А. «Большие данные»-практические аспекты и особенности //Academy. – 2016. – №. 6. – С. 65-67.

Сизов И. BIG DATA – БОЛЬШИЕ ДАННЫЕ В БИЗНЕСЕ //Экономика.

Бизнес. Информатика. – 2017. – Т. 2. – №. 3.

Интернет-ресурсы и электронные базы данных

Gartner [Электронный ресурс]: URL: http://www.gartner.com//(Дата обращения: 19.01.2020)

Habrahabr [Электронный ресурс]: URL: https://habrahabr.ru //(Дата обращения: 19.01.2020)

Information Age [Электронный ресурс]: URL: http://www.information- age.com// (Дата обращения: 19.01.2020)

Wired [Электронный ресурс]: URL: http://www.wired.com//(Дата обращения: 19.01.2020)

1 2 3 4 5