Математические методы в геологии. Контрольная работа по математическим методам в геологии
Скачать 301 Kb.
|
2. ПАРНАЯ КОРРЕЛЯЦИЯОценка связи между двумя признаками осуществляется с помощью корреляционного отношения и коэффициента корреляции. Корреляционным отношением ή называется отношение меры рассеяния условных средних зависимой переменной к мере рассеяния всех значений зависимой переменной, то есть ή =(yi) : (y), где у—значения, принимаемые зависимой переменной; yi — условные средние, соответствующие значениям xi. По выборочным данным вычисляют выборочное корреляционное отношение =S(yi) : S(y) З начение изменяется от 0 до 1. Равенство =0—необходимое и достаточное условие отсутствия корреляционной зависимости. При r=1 корреляционная связь переходит в функциональную s(yi)=s(y), когда все значения переменной, соответствующие определенному xi, совпадают с yi, то есть каждому конкретному значению xi соответствует одноединственное yi (рис. 1). Равенство s(yi)=0 возможно, когда все yi=y, то есть лежат на одной линии (аргумент изменяется, функция не реагирует, связи нет). К оэффициент корреляции вычисляется по формуле: и Рис. 1. Разброс значений зависимой переменной у и ее условных средних упредставляет собой правильную дробь, изменяющуюся от —1 до +1. При r > 0 зависимость прямая, при r < 0 — обратная, r = 0 свидетельствует об отсутствии линейной связи, но не является показателем независимости Х и Y. При |r|==1 между Х и Y устанавливается линейная функциональная зависимость вида у=ах+b. Доказано, что всегда ≥|r|. Равенство = | r | имеет место только в случае, когда зависимость между Х и Y линейная, то есть это равенство может служить простейшим критерием линейности зависимости Х и Y. Более строгая оценка линейности связи — критерий t = k : k, где k=2 - r2 — мера криволинейности - k — ошибка k, вычисляемая по формуле : Если tэмп < t связь может быть признана линейной. Последовательность вычислительных операций при определении коэффициента корреляции покажем на примере. Пример. Результаты анализа 15 проб руды на элементы Х и Y приведены в табл. 1 (колонки 1, 2). Необходимо установить, существует ли линейная связь между изменениями содержания элементов в рудах? Таблица 1
На основе суммарных значений по колонкам 1, 2, 5, 6, 7 имеем: х=6,0: 15==0,4; у=46,5: 15=3,1; s(x)= 10,40: 14=0,17; s (у) =123,88 : 14 = 1,31; rxy= 2,99: (14 x 0,17 x 1,31) = 0,96. Д ля вычисления корреляционного отношения необходимо сгруппировать исходные данные по значениям независимой переменной и применить формулу: Для расчетов удобнее пользоваться следующими формулами вычисления квадратичных отклонений: которые следуют из четвертого свойства дисперсии. Расчет корреляционного отношения показан в табл. 2. Таблица 2
Н а основе полученной суммы имеем: (вычислено ранее); = 1,26 : 1,31 = 0,96. Так как полученные значения r и равны между собой и близки к единице, то можно утверждать, что связь между содержаниями элементов Х и Y в изучаемых рудах тесная, линейная. М ерой рассеяния r и служат их основные ошибки, вычисляемые по формулам: Значимость коэффициента корреляции определяется критерием t = r : r. Если вычисленное rэмп больше табличного f = n—2, то коэффициент корреляции значимый. Аналогично определяется значимость корреляционного отношения. П ример. На основании обработки данных получено значение коэффициента корреляции, равное 0,80. Количество проб 55. Определить, является ли полученный коэффициент значимым? Ошибка t=0,80 : 0,10 >8. Полученная величина больше табличной, следовательно, коэффициент корреляции является значимым. Основные ошибки коэффициента корреляции и корреляционного отношения позволяют определить доверительные интервалы для соответствующих параметров r и (в случае нормальности распределений): r - trrr+tr; -t+t Пример. Определить доверительный интервал коэффициента корреляции, если r=0,80 и r=0,03, приняв =0,05. Имеем: 0,80—1,96 х 0,10 r 0,80+l,96 x 0,10 или 0,60 r 1,00. Д ля оценки достоверности коэффициента корреляции, существенности различия двух его значений, а также для построения доверительного интервала более надежно пользоваться критерием Фишера. Для вычисленного значения r определяют величину г де z — случайная величина, распределение которой близко к нормальному. Ошибка z оценивается по формуле то есть зависит только от объема выборки. Критерий надежности z — t = z : z. При tэмп>t, r значимо. Доверительный интервал для коэффициента корреляции с помощью величины z находят следующим образом. По z и z определяют значения zi=z— tz и z2=z+ tz, на основе которых по табличным данным определяют соответствующие им значения r1 и r2, являющиеся доверительными границами для r, то есть r1 r r2. Пример Определить доверительный интервал для коэффициента корреляции r = 0,80 при n = 55. П риняв = 0,05, находим, что r = 0,80 соответствует величина z= 1,099. При имеющемся числе данных: z = 1 : 52=0,139, z1= 1,099 — 2,0 x 0,139=0,821; z2=1,099+2,0 x 0,139 = 1,377. По полученным значениям z1 и z2 находим граничные значения коэффициента корреляции 0,68 r 0,88. Величину z можно использовать для проверки существенности различия двух выборочных коэффициентов корреляции. Ошибка разности где n1 и n2 — объемы выборок, для которых вычислены значения r1 и r2. Если величина t=|z1—z2| : z1-z2 больше t(f), то с вероятностью р =1— можно утверждать, что различие между r1 и r2 значимое. Пример. В результате статистической обработки данных по содержаниям меди и никеля в двух типах руд (сливных и вкрапленных) получены коэффициенты корреляции 0,75 и 0,60. Количество проб сливных руд 28, вкрапленных 53. Существенно ли различаются руды по тесноте связи между элементами медь—никель? Д ля r1=0,75, z1= 0,973; для r2 = 0,60, z2 =0,693. Основная ошибка t= |0,973—0,693| : 0,245 =1,1. Табличное значение t0,05(78)=l,99 по тесноте связи между содержаниями меди и никеля изучаемые руды не различаются (нет основания говорить о различии на основе имеющихся данных). О ценка тесноты связи может использоваться для сравнения выборок. Допустим, имеются данные о содержаниях двух элементов в сравниваемых породах: массив А элемент Х=1, 2, 3 и элемент Y=1, 2, 3; массив В, соответственно, 1, 2, 3 и 3, 2, 1. Для приведенных данных все статистические параметры одинаковы и р Рис. 2. Линии зависимостей между содержаниями сравниваемых породах: А — прямая; В — обратная азличить породы невозможно. В то же время видно, что в породах массива А с увеличением содержаний одного элемента увеличивается и содержание другого, тогда как в породах массива В уменьшается (рис. 2). Для — в массива А имеем прямую, для массива В обратную связь между содержаниями изучаемых элементов. За счет перехода к двумерной модели два неинформативных признака, образовали один информативный признак характера связи. Использованная литература Шестаков Ю.Г. Математические методы в геологии. Красноярск., 1988 Каждан А.Б. , Гуськов О.И., Шимансмкий А.А. Математическое моделирование в геологии и разведке полезных ископаемых. М.; Недра, 1979. Бондаренко В.Н. Сравнительный анализ геологических объектов с закономерной изменчивостью свойств. М.; Недра, 1978 |