Отчёт кр. Контрольная работа 1 Вариант 1 по Основы сбора и обработки больших данных

Название	Контрольная работа 1 Вариант 1 по Основы сбора и обработки больших данных
Дата	08.10.2022
Размер	455.5 Kb.
Формат файла
Имя файла	Отчёт кр.doc
Тип	Контрольная работа #721288

ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ

Федеральное государственное бюджетное образовательное

учреждение высшего образования

ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ

Заочный факультет

РЕГИСТРАЦИОННЫЙ №
Контрольная работа № ___1___ Вариант __1___
по «Основы сбора и обработки больших данных»

Студент Ермаков Михаил Васильевич
Факультет ____ЗО_____ курс ___3_____ шифр гр.05И

Работа выслана « »_октябрь 2022г.

Оценка _______________ Дата ___________20___г.

Подпись преподавателя ___________________

Часть 1

Цель работы: получить базовые навыки моделирования данных в разрезе выполнения моделей.

Устанавливаем библиотеки: numpy, statsmodels, sklearn.

С помощью команды pip install…

Запускаем IDLE, и создаем новый файл, вводим код:

import statsmodels.api as sm

import numpy as np

predictors = np.random.random(1000).reshape(500, 2)

target = predictors.dot(np.array([0.4, 0.6])) + np.random.random(500)

lmRegModel = sm.OLS(target, predictors)

result = lmRegModel.fit()

print(result.summary())

Необходимо добавить пояснение к выводу матрицы

import statsmodels.api as sm

import numpy as np

print('Regression results')

predictors = np.random.random(1000).reshape(500, 2)

target = predictors.dot(np.array([0.4, 0.6])) + np.random.random(500)

lmRegModel = sm.OLS(target, predictors)

result = lmRegModel.fit()

print(result.summary())

Выполните по 10 итераций для переменных "predictors" и "target", изменяя условия их формирования. Входные данные (условия формирования) и измерения (результаты) занести в таблицу (Excel). В таблицы использовать только метрики, рассмотренные на лекции.
Минимальное значение метрики равно: [0.74813690 1.04371307]

Среднее:[ 0.83293122 1.06944231]

Максимальное: [0.91284322 1.05731586]

Строим график

Вывод:

Влияние изменения predictors: При уменьшении значения (особенно менее 30) резко растёт коэффициент детерминации, приближаясь и становясь равным 1,а при увеличении значения коэффициент детерминации стремится к одной и той же константе (для target определяемого как [0.4, 0.6] это значение около 0,89)

Влияние изменения target: При увеличении разницы между значениями массива растёт разница между Coef X1 и Coef X2, что отражает то, как части выборки влияют на изменение итоговых значений функции Y. Из этого следует вывод, что чем меньше изменение любой из частей тем большее влияние она оказывает на итоговый результат. Причём это действительно даже если увеличить сумму частей массива более 1, правда это вызывает значительное увеличение коэффициента детерминации и резко снижает доверие к результатам

Часть 2

1. Создаем новый файл и называем его: lab2_2_Ермаков Михаил Васильевич

2. Вводим код:

import numpy as np

from sklearn import neighbors

from sklearn.metrics import confusion_matrix

predictors = np.random.random(1000).reshape(500,2)

target = np.around(predictors.dot(np.array([0.4, 0.6])) + np.random.random(500))

clf = neighbors.KNeighborsClassifier(n_neighbors = 10)

knn = clf.fit(predictors, target)

print(knn.score(predictors, target))

prediction = knn.predict(predictors)

print(confusion_matrix(target, prediction))

3. Результат выполнения кода

4. Необходимо, чтобы впереди матрицы выходил текст, добавляем его с помощью команды: print print ('model compliance metrics and nonconformity matrices')

Результат ниже:

5. Производим 10 итераций результат в файле result

6. В результате выполнения лабораторной работы были рассмотрены принципы моделирования данных двумя методами линейной регрессии и методом голосования. Так же мною проиллюстрированы результаты работы с предсказанием случайных чисел.

Оба метода показали, что достаточно эффективны в выполнении данной задачи, но у каждого есть свои особенности применения

Качество обоих методов сильно зависит от параметра target, т.е. от изменения первоначальной выборки. А при росте числа элементов качество модели линейной регрессии увеличивается, в то время как у метода голосования качество модели практически неизменно. Из этого следует вывод, что на маленьких наборах данных более эффективен окажется метод голосования.