Главная страница
Навигация по странице:

  • Порядок выполнения задания

  • Критерий Фишера Использование уровня значимости α

  • Использование t-критерия Стьюдента Использование уровня значимости α

  • 2.2 Практическое задание 2. Кластерный анализ в STATISTICA Постановка задачи

  • Порядок выполнения задания Кластерный анализ

  • Joining (tree clustering

  • Ward’s method

  • Euclidean distance

  • Реферат, Москаленко М.С.. Содержание Введение. Теоретические сведения. 1 Статистика. Виды статистического анализа. 2 Статистический пакет statistica. Статистический анализ экономических данных в statistica 1 Практическое задание.


    Скачать 334 Kb.
    НазваниеСодержание Введение. Теоретические сведения. 1 Статистика. Виды статистического анализа. 2 Статистический пакет statistica. Статистический анализ экономических данных в statistica 1 Практическое задание.
    Дата07.05.2022
    Размер334 Kb.
    Формат файлаdoc
    Имя файлаРеферат, Москаленко М.С..doc
    ТипРеферат
    #516676
    страница3 из 3
    1   2   3

    2) построить линейное уравнение множественной регрессии, выбрав в качестве зависимой переменной – y, в качестве независимых – переменные хi, соответствующие варианту (см. таб. 4).

    3) Определить коэффициент множественной корреляции и коэффициент детерминации R2 полученной модели

    4) Проверить значимость построенной модели (например, используя уровень значимости α=0,05).

    5) Если модель значима дать оценку коэффициентов множественной регрессии на основе t-критерия, если tтабл(15-4-1)= tтабл(10)=2,2281 и уровня значимости α=0,05.

    6) Пересчитать уравнение множественной регрессии используя только значимые факторы.

    7) Проверить адекватность регрессионной модели (полученной на предыдущем этапе анализа).

    8) Осуществить прогнозирование в соответствии с вариантом

    9) Оформить отчет о проделанной работе используя распечатки отчета, полученного средствами пакета STATISTICA или в MS Word.

    Порядок выполнения задания

    В системе STATISTICA для построения корреляционной матрицы можно воспользоваться модулем Basic Statistics/Tables (Основные статистики и таблицы), выбрав процедуры ® , используя в качестве переменных все исходные данные (Select all). И процедуру для представления матрицы в графическом виде.

    По корреляционной матрице можно в первом приближении судить о тесноте связи факторных признаков х1, х2,…,xm между собой и с результативным признаком y, а также осуществлять предварительный отбор факторов для включения их в уравнение регрессии. При этом не следует включать в модель факторы, слабо коррелирующие с результативным признаком и тесно связанные между собой. Не допускается включать в модель функционально связанные между собой факторные признаки, так как это приводит к неопределенности решения.

    Выбор уравнения модели, в большинстве случаев, производятся среди функций перечисленных в таблице 3. В системе STATISTICA для построения линейного уравнения множественной регрессии можно воспользоваться модулем множественной регрессии , определив зависимую (dependent) переменную y и независимые (independent) переменные х1, х2, x3, x4.



    Статистический вывод о пригодности (значимости) уравнения регрессии в системе Statistica обычно проверяется в следующей последовательности.

    Проводится общая проверка модели, целью которой является выяснение, объясняют ли х-переменные значимую долю изменения у. Определение значимости модели рекомендуется проводить по следующим методам (см. табл. 5).

    Таблица 5

    Критерий Фишера

    Использование уровня

    значимости α

    Использование коэффициента детерминации R2

    Проверяется нулевая гипотеза H0о равенстве полученных коэффициентов регрессии нулю: a0=a1=a2=…=am=0. Для этого рассчитанное системой Statistica значение F-критерия (Fрасч), сравнивается с табличным значением Fтабл, определяемым с использованием специальных таблиц по заданным уровню значимости (например, a=0,05) и числу степеней свободы (df1=m, df2=n-m-1). Если выполняется неравенство Fрасч < Fтабл, то с уверенностью, например на 95 %, можно утверждать, что рассматриваемая зависимость y = а0 + a1x1+ … +amxm является статистически значимой.

    Если рассчитанное в Statistica значение уровня значимости р больше, чем заданный уровень значимости a (например, a=0,05), то полученный результат нужно трактовать как незначимый

    (для 95% вероятности). В том случае, когда величина р<0,05, то вывод такой: это значимое уравнение с вероятностью 95%.

    Рассчитанная системой Statistica величина сравнивается с табличными (критическими) значениями , определяемым с использованием специальных таблиц по заданному уровню значимости (например, α =0,05). Если окажется, что > , то с упомянутой степенью вероятности (95 %) можно утверждать, что анализируемая регрессия является значимой.

    Если регрессия не является значимой, то говорить больше не о чем.

    В при веденном примере модель значима, т.к. вычисленный уровень значимости модели р=0,000000<0,05.



    Осуществив переход к результатам регрессии (Summary: Regression results) получаем уравнение линейной множественной регрессии вида y(x1, x2, x3, x4)=6,9+0,07x1 –0,00035x2–2,08x3+0,00003x4:


    2. Если регрессия оказывается значимой, то существует взаимосвязь между параметром у и переменными х1, х2,…,xm. Однако остается неясно, каково влияние конкретных факторов х1, х2,…,xm на исследуемую функцию у. Можно продолжить анализ, используя t-тесты для отдельных коэффициентов регрессии а0, a1, a2,…,am с целью выяснить, насколько значимой является влияние той или иной переменной х на параметр у при условии, что все другие факторы хk остаются неизменными. Проверку на адекватность коэффициентов регрессии рекомендуется проводить по следующим эквивалентным методам (см. табл. 5).

    Таблица 5

    Использование t-критерия Стьюдента

    Использование

    уровня значимости α

    Анализируемый коэффициент а0, a1, a2,…,am считается значимым, если рассчитанное системой Statistica для него значение t-критерия по абсолютной величине превышает tтабл, определяемым с использованием специальных таблиц по заданным уровню значимости (например, a=0,05) и числу степеней свободы (df=n-m-1).

    Коэффициент регрессии а0, a1, a2,…,am признается значимым, если рассчитанное системой Statistica для него значение уровня значимости р меньше (или равно) 0,05 (для 95%-ной доверительной вероятности).


    Т.к. вычисленные уровни значимости p-level для коэффициентов, стоящих при x2 и x4 меньше 0,05, то они не значимы. К аналогичному выводу можно прийти, воспользовавшись t-критерием: t2(10)=-0,013<2,228 и t3(10)=1,44<2,228.

    С учетом этого факта, пересчитаем уравнение множественной регрессии, выбрав в качестве зависимой (dependent) переменную y и независимые (independent) переменные х1 и x3, коэффициенты при которых значимы:




    Получаем:



    Т.о., уравнение регрессии имеет вид

    y(x1, x3)=4,957+0,096x1–1,559x3

    Для выполнения прогнозов по полученному уравнению необходимо показать, что регрессионная модель адекватна результатам наблюдений. С этой целью можно воспользоваться критерием Дарбина-Уотсона, согласно которого, рассчитанный системой Statistica коэффициент dрасч необходимо сравнить с табличным значением dтабл (для совокупности объемом n=15, уровня значимости a=0,05 и трех оцениваемых параметров регрессии, значение dтабл=1,75). Если dрасч>dтабл, то полученная модель адекватна и пригодна для прогнозирования. Для определения dрасч в Statistica в окне Residual Analysis на вкладке Advanced необходимо выбрать опцию Durbin-Watson statistic:



    В рассматриваемом примере dрасч=1,2<1,75, следовательно, модель не желательно использовать для прогнозирования.



    В случае, когда модель адекватна результатам наблюдения для выполнения прогноза в окне Multyple Regression Results вкладки Residuals/assumptions/prediction (Остатки/Предположения/Прогнозирование) выбрать опцию (прогнозирование зависимой переменной). Например, если в Москве среднегодовую стоимость основных фондов (переменная x1) повысить на 50 тыс. руб., а трудоемкость единицы продукции (переменная х3) уменьшить в два раза, то следует ожидать производительности труда равной 19,16 (увеличится на 19,16-14=5,16):





    2.2 Практическое задание 2. Кластерный анализ в STATISTICA

    Постановка задачи

    Двадцать банков, акции которых котируются на рынке, предоставили следующую информацию (см. табл.), где – x затраты за прошлый период, y – прибыль за прошлый период.

    Необходимо:

    1) дополнить таблицу до 20 значений. Данные можно не просто придумать, а взять из любых примеров деятельности банков того или иного города, приведенных в книгах по статистике, эконометрике, СМИ, Internet или любых иных источников.

    2) построить график по исходным данным (Scatterplot)

    3) c использованием системы STATISTICA выяснить (дать рекомендацию) акции каких банков некоторому предприятию имеет смысл приобрести, каких – придержать, а от каких – избавиться.

    Таблица

    Номер

    банка

    Затраты

    x

    Прибыль

    y

    1

    4

    2

    2

    6

    10

    3

    5

    7

    4

    12

    3

    5

    17

    4

    6

    3

    10

    7

    6

    1

    8

    6

    3

    9

    15

    1

    10

    15

    4

    11

    5

    4

    12

    3

    8

    13

    13

    5

    14

    15

    3

    15

    5

    9


    Порядок выполнения задания

    Кластерный анализ – один из методов статистического многомерного анализа, предназначенный для группировки (кластеризации) совокупности элементов, которые характеризуются многими факторами, и получения однородных групп (кластеров). Задача кластерного анализа состоит в представлении исходной информации об элементах в сжатом виде без ее существенной потери.

    STATISTICA предлагает несколько методов кластерного анализа. В дальнейшем будем использовать Joining (tree clustering) – группу иерархических методов (7 видов), которые используются в том случае, если число кластеров заранее неизвестно.



    Используемый метод – Ward’s method – метод Уорда, который хорошо работает с небольшим количеством элементов и нацелен на выбор кластеров с примерно одинаковым количеством членов. В качестве метрики расстояния пакет предлагает различные меры, но наиболее употребительными являются Euclidean distance (евклидово расстояние). При кластеризации элементов в пакете STATISTICAследует выбирать режим: cases (rows) – строки, а при кластеризации факторов: variables (columns) – столбцы. В качестве переменных для рассматриваемого примере следует выбрать все переменные (all).


    Для вывода результатов на экран следует выбрать

    либо .

    Вывести график на печать.
    1   2   3


    написать администратору сайта