Зинченко. 1. Предмет теории вероятности. Вероятность и статистика

Название	1. Предмет теории вероятности. Вероятность и статистика
Анкор	Зинченко.docx
Дата	10.07.2018
Размер	224.21 Kb.
Формат файла
Имя файла	Зинченко.docx
Тип	Документы #21298
страница	3 из 5

1 2 3 4 5

Цели регрессионного анализа

Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
Предсказание значения зависимой переменной с помощью независимой(-ых)
Определение вклада отдельных независимых переменных в вариацию зависимой

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом. Пусть Y, X₁,X₂,...,X_p — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений X₁ = x₁,X₂ = x₂,...,X_p = x_p определено условное математическое ожидание

y(x₁,x₂,...,x_p) = E(Y | X₁ = x₁,X₂ = x₂,...,X_p = x_p) (уравнение линейной регрессии в общем виде),

то функция y(x₁,x₂,...,x_p) называется регрессией величины Y по величинам X₁,X₂,...,X_p, а её график — линией регрессии Y по X₁,X₂,...,X_p, или уравнением регрессии.

Зависимость Y от X₁,X₂,...,X_p проявляется в изменении средних значений Y при изменении X₁,X₂,...,X_p. Хотя при каждом фиксированном наборе значений X₁ = x₁,X₂ = x₂,...,X_p = x_p величина Y остаётся случайной величиной с определённым рассеянием.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении X₁,X₂,...,X_p, используется средняя величина дисперсии Y при разных наборах значений X₁,X₂,...,X_p (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

Метод наименьших квадратов (расчёт коэффициентов)

На практике линия регрессии чаще всего ищется в виде линейной функции Y = b₀ + b₁X₁ + b₂X₂ + ... + b_NX_N (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок $\hat{y}$ (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

$\sum_{k=1}^{m} (y_k-\hat{y_k})^2 \to min$

(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда Y = y(x₁,x₂,...x_N).

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

$\sigma(\bar{b})=\frac{1}{2}\sum_{k=1}^{m}{(y_k-\hat{y}_k)^2}$

Условие минимума функции невязки:

$\left\{ \begin{matrix} \frac{d\sigma(\bar{b})}{db_i}=0 \\ i=0...n \end{matrix} \right. \leftrightarrow \left\{ \begin{matrix} \sum_{i=1}^{m}{y_i}=\sum_{i=1}^{m}{\sum_{j=1}^{n}{b_jx_{i,j}}}+b_0m \\ \sum_{i=1}^{m}{y_ix_{i,k}}=\sum_{i=1}^{m}{\sum_{j=1}^{n}{b_jx_{i,j}x_{i,k}}}+b_0\sum_{i=1}^{m}{x_{i,k}} \\ k=1...n \end{matrix} \right.$

Полученная система является системой N + 1 линейных уравнений с N + 1 неизвестными b₀...b_N

Если представить свободные члены левой части уравнений матрицей

$b=\left\{ \begin{matrix} \sum_{i=1}^{m}{y_i} \\ \sum_{i=1}^{m}{y_ix_{i,1}} \\ ... \\ \sum_{i=1}^{m}{y_ix_{i,n}} \end{matrix} \right\}$

а коэффициенты при неизвестных в правой части матрицей

$a=\left\{ \begin{matrix} m & \sum_{i=1}^{m}{x_{i,1}} & \sum_{i=1}^{m}{x_{i,2}} & ... & \sum_{i=1}^{m}{x_{i,n}} \\ \sum_{i=1}^{m}{x_{i,1}} & \sum_{i=1}^{m}{x_{i,1}x_{i,1}} & \sum_{i=1}^{m}{x_{i,2}x_{i,1}} & ... & \sum_{i=1}^{m}{x_{i,n}x_{i,1}} \\ \sum_{i=1}^{m}{x_{i,2}} & \sum_{i=1}^{m}{x_{i,1}x_{i,2}} & \sum_{i=1}^{m}{x_{i,2}x_{i,2}} & ... & \sum_{i=1}^{m}{x_{i,n}x_{i,2}} \\ ... & ... & ... & ... & ... \\ \sum_{i=1}^{m}{x_{i,n}} & \sum_{i=1}^{m}{x_{i,1}x_{i,n}} & \sum_{i=1}^{m}{x_{i,2}x_{i,n}} & ... & \sum_{i=1}^{m}{x_{i,n}x_{i,n}} \end{matrix} \right\}$

то получаем матричное уравнение: $a \times x = b$ , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

$x=\left\{ \begin{matrix} b_0 \\ b_1 \\ ... \\ b_n \end{matrix} \right\}$

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators) − наилучшие линейные несмещенные оценки.

21. Зако́н больши́х чи́сел

в теории вероятностей утверждает, что эмпирическое среднее (среднее арифметическое) достаточно большой конечной выборки из фиксированного распределения близко к теоретическому среднему (математическому ожиданию) этого распределения. В зависимости от вида сходимости различают слабый закон больших чисел, когда имеет место сходимость по вероятности, и усиленный закон больших чисел, когда имеет место сходимость почти всюду.

Всегда найдётся такое количество испытаний, при котором с любой заданной наперёд вероятностью относительная частота появления некоторого события будет сколь угодно мало отличаться от его вероятности.

Общий смысл закона больших чисел — совместное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая.

На этом свойстве основаны методы оценки вероятности на основе анализа конечной выборки. Наглядным примером является прогноз результатов выборов на основе опроса выборки избирателей.

1 2 3 4 5