Контрольная работа по дисциплине Основы сбора и обработки больших данных Моделирование данных (выполнение модели)

Название	Контрольная работа по дисциплине Основы сбора и обработки больших данных Моделирование данных (выполнение модели)
Дата	09.10.2022
Размер	242.53 Kb.
Формат файла
Имя файла	rab_4476 (1).pdf
Тип	Контрольная работа #722764

Поволжский государственный университет телекоммуникаций
и информатики
Кафедра «Информационные системы и технологии»
Контрольная работа
по дисциплине «Основы сбора и обработки
больших данных»
Моделирование данных (выполнение модели)
Выполнил: студент группы ИСТ-03К Шершавов А.Е.
№ зачетной книжки: 203149
Самара 2022 г.

Часть 1
Цель работы: получить базовые навыки моделирования данных в разрезе выполнения моделей.
1. Устанавливаем библиотеки: numpy, statsmodels, sklearn.
С помощью команды pip install…
2. Запускаем IDLE, и создаем новый файл, вводим код: import statsmodels.api as sm import numpy as np predictors = np.random.random(1000).reshape(500, 2) target = predictors.dot(np.array([0.4, 0.6])) + np.random.random(500) lmRegModel = sm.OLS(target, predictors) result = lmRegModel.fit() print(result.summary())
Нажимаем F5, код сохраняем на рабочем столе, я назвала его: КР1_ВСВ.
3. Необходимо добавить пояснение к выводу матрицы import statsmodels.api as sm import numpy as np print("Результаты регрессии:") predictors = np.random.random(1000).reshape(500, 2)

target = predictors.dot(np.array([0.4, 0.6])) + np.random.random(500) lmRegModel = sm.OLS(target, predictors) result = lmRegModel.fit() print(result.summary())
Сохраняем результат под именем КР2_ВСВ
4. Модифицируем код выполняя 10 итераций, результат записываем в файл под именем result.xlsx
5. Минимальное значение метрики равно: [0.73528690 1.06822507]
Среднее:[ 0.82543523 1.05846161]
Максимальное: [0.89354811 1.04891472]
6. Строим график
7. Вывод:

Влияние изменения predictors: При уменьшении значения (особенно менее
30) резко растёт коэффициент детерминации, приближаясь и становясь равным 1,а при увеличении значения коэффициент детерминации стремится к одной и той же константе (для target определяемого как [0.4, 0.6] это значение около 0,89)
Влияние изменения target: При увеличении разницы между значениями массива растёт разница между Coef X1 и Coef X2, что отражает то, как части выборки влияют на изменение итоговых значений функции Y. Из этого следует вывод, что чем меньше изменение любой из частей тем большее влияние она оказывает на итоговый результат. Причём это действительно даже если увеличить сумму частей массива более 1, правда это вызывает значительное увеличение коэффициента детерминации и резко снижает доверие к результатам
Часть 2
1. Создаем новый файл и называем его: КР2_2_ВСВ
2. Вводим код: import numpy as np from sklearn import neighbors from sklearn.metrics import confusion_matrix predictors = np.random.random(1000).reshape(500,2) target
= np.around(predictors.dot(np.array([0.4,
0.6]))
+ np.random.random(500)) clf = neighbors.KNeighborsClassifier(n_neighbors = 10) knn = clf.fit(predictors, target) print(knn.score(predictors, target)) prediction = knn.predict(predictors) print(confusion_matrix(target, prediction))
3. Результат выполнения кода

4. Необходимо, чтобы впереди матрицы выходил текст, добавляем его с помощью команды: print («метрики соответствия модели и матрицы несоответствий») Называем файл КР_2_3ВСВ
Результат ниже:
5. Производим 10 итераций результат в файле result
6. В результате выполнения лабораторной работы были рассмотрены принципы моделирования данных двумя методами линейной регрессии и методом голосования. Так же мною проиллюстрированы результаты работы с предсказанием случайных чисел.
Оба метода показали, что достаточно эффективны в выполнении данной задачи, но у каждого есть свои особенности применения
Качество обоих методов сильно зависит от параметра target, т.е. от изменения первоначальной выборки. А при росте числа элементов качество модели линейной регрессии увеличивается, в то время как у метода голосования качество модели практически неизменно. Из этого следует вывод, что на маленьких наборах данных более эффективен окажется метод голосования.