Главная страница

Зинченко. 1. Предмет теории вероятности. Вероятность и статистика


Скачать 224.21 Kb.
Название1. Предмет теории вероятности. Вероятность и статистика
АнкорЗинченко.docx
Дата10.07.2018
Размер224.21 Kb.
Формат файлаdocx
Имя файлаЗинченко.docx
ТипДокументы
#21298
страница3 из 5
1   2   3   4   5

Цели регрессионного анализа


  1. Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)

  2. Предсказание значения зависимой переменной с помощью независимой(-ых)

  3. Определение вклада отдельных независимых переменных в вариацию зависимой

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом. Пусть Y, X1,X2,...,Xp — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений X1 = x1,X2 = x2,...,Xp = xp определено условное математическое ожидание

y(x1,x2,...,xp) = E(Y | X1 = x1,X2 = x2,...,Xp = xp) (уравнение линейной регрессии в общем виде),

то функция y(x1,x2,...,xp) называется регрессией величины Y по величинам X1,X2,...,Xp, а её график — линией регрессии Y по X1,X2,...,Xp, или уравнением регрессии.

Зависимость Y от X1,X2,...,Xp проявляется в изменении средних значений Y при изменении X1,X2,...,Xp. Хотя при каждом фиксированном наборе значений X1 = x1,X2 = x2,...,Xp = xp величина Y остаётся случайной величиной с определённым рассеянием.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении X1,X2,...,Xp, используется средняя величина дисперсии Y при разных наборах значений X1,X2,...,Xp (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

Метод наименьших квадратов (расчёт коэффициентов)

На практике линия регрессии чаще всего ищется в виде линейной функции Y = b0 + b1X1 + b2X2 + ... + bNXN (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок \hat{y}(имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

\sum_{k=1}^{m} (y_k-\hat{y_k})^2 \to min

(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда Y = y(x1,x2,...xN).

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

\sigma(\bar{b})=\frac{1}{2}\sum_{k=1}^{m}{(y_k-\hat{y}_k)^2}

Условие минимума функции невязки:

\left\{ \begin{matrix} \frac{d\sigma(\bar{b})}{db_i}=0 \\ i=0...n \end{matrix} \right. \leftrightarrow \left\{ \begin{matrix} \sum_{i=1}^{m}{y_i}=\sum_{i=1}^{m}{\sum_{j=1}^{n}{b_jx_{i,j}}}+b_0m \\ \sum_{i=1}^{m}{y_ix_{i,k}}=\sum_{i=1}^{m}{\sum_{j=1}^{n}{b_jx_{i,j}x_{i,k}}}+b_0\sum_{i=1}^{m}{x_{i,k}} \\ k=1...n \end{matrix} \right.

Полученная система является системой N + 1 линейных уравнений с N + 1 неизвестными b0...bN

Если представить свободные члены левой части уравнений матрицей

b=\left\{ \begin{matrix} \sum_{i=1}^{m}{y_i} \\ \sum_{i=1}^{m}{y_ix_{i,1}} \\ ... \\ \sum_{i=1}^{m}{y_ix_{i,n}} \end{matrix} \right\}

а коэффициенты при неизвестных в правой части матрицей

a=\left\{ \begin{matrix} m & \sum_{i=1}^{m}{x_{i,1}} & \sum_{i=1}^{m}{x_{i,2}} & ... & \sum_{i=1}^{m}{x_{i,n}} \\ \sum_{i=1}^{m}{x_{i,1}} & \sum_{i=1}^{m}{x_{i,1}x_{i,1}} & \sum_{i=1}^{m}{x_{i,2}x_{i,1}} & ... & \sum_{i=1}^{m}{x_{i,n}x_{i,1}} \\ \sum_{i=1}^{m}{x_{i,2}} & \sum_{i=1}^{m}{x_{i,1}x_{i,2}} & \sum_{i=1}^{m}{x_{i,2}x_{i,2}} & ... & \sum_{i=1}^{m}{x_{i,n}x_{i,2}} \\ ... & ... & ... & ... & ... \\ \sum_{i=1}^{m}{x_{i,n}} & \sum_{i=1}^{m}{x_{i,1}x_{i,n}} & \sum_{i=1}^{m}{x_{i,2}x_{i,n}} & ... & \sum_{i=1}^{m}{x_{i,n}x_{i,n}} \end{matrix} \right\}

то получаем матричное уравнение: a \times x = b, которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

x=\left\{ \begin{matrix} b_0 \\ b_1 \\ ... \\ b_n \end{matrix} \right\}

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators) − наилучшие линейные несмещенные оценки.

21. Зако́н больши́х чи́сел

в теории вероятностей утверждает, что эмпирическое среднее (среднее арифметическое) достаточно большой конечной выборки из фиксированного распределения близко к теоретическому среднему (математическому ожиданию) этого распределения. В зависимости от вида сходимости различают слабый закон больших чисел, когда имеет место сходимость по вероятности, и усиленный закон больших чисел, когда имеет место сходимость почти всюду.

Всегда найдётся такое количество испытаний, при котором с любой заданной наперёд вероятностью относительная частота появления некоторого события будет сколь угодно мало отличаться от его вероятности.

Общий смысл закона больших чисел — совместное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая.

На этом свойстве основаны методы оценки вероятности на основе анализа конечной выборки. Наглядным примером является прогноз результатов выборов на основе опроса выборки избирателей.


1   2   3   4   5


написать администратору сайта