12 Дискриминантный анализ (2022). Практикум Для студентов iiiv курсов дневного и заочного отделений геологического факультета по дисциплине Математические методы в геологии

Название	Практикум Для студентов iiiv курсов дневного и заочного отделений геологического факультета по дисциплине Математические методы в геологии
Дата	19.12.2022
Размер	1.15 Mb.
Формат файла
Имя файла	12 Дискриминантный анализ (2022).docx
Тип	Практикум #852087

Министерство образования

и науки Российской Федерации

Федеральное государственное бюджетное образовательное

учреждение высшего профессионального образования

«Пермский государственный национальный

исследовательский университет»
ДИСКРИМИНАНТНЫЙ анализ
Практикум

Для студентов II–IV курсов дневного и заочного отделений

геологического факультета по дисциплине «Математические методы

в геологии» направления подготовки «Геология»(бакалавры)

и специальности «Прикладная геология»

Пермь 2022

Составитель: ст. преподаватель каф. Поисков и разведки полезных ископаемых Брюхов Виталий Нниколаевич

Издание содержит теоретические сведения и подробные рекомендации для выполнения лабораторных заданий по теме: «Дискриминантного анализа многомерной статистической совокупности» в среде Microsoft Excel.

Предназначено для студентов II–IV курсов дневного и заочного отделений геологического факультета по дисциплине «Математические методы в геологии» направления подготовки 05.03.01 «Геология» (бакалавры) и специальности 21.05.02 «Прикладная геология».
Дискриминантный анализ многомерной модели
При изучении сложных геологических объектов часто возникает необходимость их классификации, т.е. отыскания некоторого правила разделения объектов на отдельные однородные группы. Эта группа геологических задач, получившая название распознавания образов, включает решение таких вопросов, как разделение нефтеносных и водоносных пластов (без их опробования), продуктивных и «пустых» структур и т.д.
Задача: Определить принадлежность 18 прогнозных структур к группе месторождений или группе пустых структур с помощью дискриминантного анализа по эталонным выборкам. Первая группа (выборка) включает 15 известных нефтяных месторождений (выборка А), вторая группа – 15 заведомо пустых структур (выборка В)
Требуется: 1) рассчитать уравнение линейной дискриминантной функции трех переменных (оцениваемых параметров) для разделения исходных данных на две самостоятельные выборки.

Оцениваемыми параметрами являются:

а) амплитуда структуры (м),

б) мощность продуктивной толщи на месторождениях и мощность прогнозируемой толщи на пустых структурах (м),

в) коэффициент песчанистости, характеризующий коллекторские свойства продуктивной и прогнозируемой толщи структур. (Под коэффициентом песчанистости понимается отношение суммарной эффективной толщины проницаемых прослоев в продуктивной (или прогнозируемой) толще к общей мощности продуктивной толщи).;

2) разделить прознозные структуры на пустые и нефтеносные путем сравнения дискриминантного индекса и расчетных значений дискриминантной функции.

АЛГОРИТМ ВЫПОЛНЕНИЯ ЗАДАНИЯ.
Скопируйте исходные значения выборок А и В из вкладки «Данные» в таблицу 1 в соответствии со своим вариантом.

Построение корреляционных полей

построить три корреляционных графика зависимостей Y=f(X), Z=f(Y) и Х=f(Z) по обеим выборкам А и В и визуально оценить разделение исходных данных на две совокупности;

рассчитать ковариации и составить основную ковариационную матрицу трех переменных X, Y и Z для вычисления основной детерминанты (определителя матрицы) Δ - Дельта;

Для этого в таблице 1:

2.1 рассчитайте суммы квадратов отклонений исходных значений от своих средних по каждой выборке А и В:

сумма (Х_iA – ср.Х_А)²;

сумма (X_iB – ср.X_B)²;

сумма (Y_iA – ср.Y_A)²;

сумма (Y_iB – ср.Y_B)²;

сумма (Z_iA – ср.Z_A)²;

сумма (Z_iB – ср.Z_B)²

2.2 рассчитайте суммы произведений отклонений исходных значений от своих средних по каждой выборке А и В:
сумма ((Х_iA – ср.Х_А)*(Y_iA – ср.Y_A));

сумма ((Х_iA – ср.Х_А)*(Z_iA – ср.Z_A));

сумма ((Y_iA – ср.Y_A)*(Z_iA – ср.Z_A));
сумма ((X_iB – ср.X_B)*(Y_iB – ср.Y_B));

сумма ((X_iB – ср.X_B)*(Z_iB – ср.Z_B));

сумма ((Y_iB – ср.Y_B)*(Z_iB – ср.Z_B))

2.3 далее рассчитайте ковариации и заполните матрицу ковариаций:

COV(X,X) =	∑ ( X_iA - ср.X_A)² + ∑ ( X_iB - ср.X_B)²
	(N_А + N_B - 2)

COV (Y,Y) =	∑ (Y_iA - ср.Y_A)² + ∑ (Y_iB - ср.Y_B)²
	(N_А + N_B - 2)

COV (Z,Z) =	∑ (Z_iA - ср.Z_A)² + ∑ (Z_iB - ср.Z_B)²
	(N_А + N_B - 2)

COV (X,Y)/(Y,X)=	∑ ((X_iA - ср.X_A)(Y_iA - ср.Y_A)) + ∑ ((X_iB - ср.X_B )(Y_iB - ср.Y_B))
	(N_А + N_B - 2)

COV (X,Z)/(Z,X)=	∑ ((X_iA - ср.X_A)(Z_i_A - ср.Z_A)) + ∑ ((X_iB - ср.X_B)(Z_iB - ср.Z_B))
	(N_А + N_B - 2)

COV (Y,Z)/(Z,Y)=	∑ ((Y_iA - ср.Y_A)(Z_iA - ср.Z_A)) + ∑ ((Y_iB - ср.Y_B)(Z_iB - ср.Z_B))
	(N_А + N_B - 2)

Для нашего вариант получим следующие значения:

	Ковариационная матрица
COV	Х	У	Z
Х	5122.0	546.8	-109,6
У	546.8	13159.8	105.1
Z	-109.6	105.1	12.8

рассчитать детерминанты (основную - Δ и три дополнительных – Δ₁, Δ₂, Δ₃) через вспомогательные ковариационные матрицы. Для этого:

3.1 рассчитайте разности средних значений между выборками d₁, d₂, d₃.

d₁ = ср.X_A - ср.X_B

d₂ = ср.Y_A - ср.Y_B

d₃ = ср.Z_A - ср.Z_B
3.2 рассчитайте основную детерминанту Дельта [Δ] в ячейке D55:
Δ = МОПРЕД(B51:D53)
3.3 рассчитайте дополнительные детерминанты - Δ₁, Δ₂, Δ₃, через вспомогательные матрицы сформированные из основной ковариационной матрицы.

Чтобы рассчитать дополнительные детерминанты необходимо составить 3 вспомогательных матрицы ковариаций (строки 59-62) из общей ковариационной матрицы, путем поочередной замены столбцов на разности средних значений признака между выборками. Сначала столбца X, затем Y, затем Z.

рассчитайте дополнительные детерминанты - Δ₁, Δ₂, Δ₃, через функцию – “МОПРЕД” по аналогии с основной детерминантой.
3.4 рассчитайте коэффициенты a₁, а₂, а₃:
а₁ = Δ₁ / Δ; а₂ = Δ₂ / Δ; а₃ = Δ₃ / Δ

Записать дискриминантную функцию функцию D и рассчитать дискриминантный индекс D₀:

D = a₁X+a₂Y+a₃Z
D₀ = ( а₁*(ср.X_A+ср.X_B)+а₂*(ср.YA+ср.Y_B)+а₃*(ср.Z_A+ ср.Z_B))/2

Оценить значимость линейной дискриминантной функции с помощью F-критерия Фишера и критерия Махалонобиса D_M.

D_M = а₁*d₁ + а₂*d₂ + а₃*d₃

Если F_расчF_теордля принятого уровня значимости а=0,05 и при степенях свободы f₁=3, f₂=26, то нулевая гипотеза о равенстве двух многомерных средних (т.е. о равенстве нулю расстояния D_M между ними) отвергается, т.е. дискриминантная функция признается статистически значимой.

В нашей работе F_теор=2,98

Оценить вклад каждой переменной в расстояние DM между трехмерными средними двух выборок А и В:

Вклад переменной Х E_X = а₁*d₁*100/D_M

Вклад переменной Y E_Y = а₂*d₂*100/D_M

Вклад переменной Z E_Z = а₃*d₃*100/D_M

Pазделить прознозные структуры на пустые и нефтеносные путем сравнения дискриминантного индекса и расчетных значений дискриминантной функции.

Принадлежность любого классифицируемого трехмерного наблюдения к одной из двух анализируемых выборок (А или В) можно определить путем подстановки его значений X, Y и Z в неравенство
a₁*X_i + a₂*Y_i+а₃*Z_i >= D₀
Если неравенство выполняется, то единичное наблюдение следует отнести к первой совокупности, т.е. к выборке А, иначе – к выборке В.