Главная страница
Навигация по странице:

  • 1.5. Измерение степени тесноты связи между качественными признаками (ранговая корреляция)

  • Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием прог - Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческо. В. Р. Бараз корреляционнорегрессионный анализ


    Скачать 1.37 Mb.
    НазваниеВ. Р. Бараз корреляционнорегрессионный анализ
    АнкорКорреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием прог - Бараз В.Р..pdf
    Дата17.05.2018
    Размер1.37 Mb.
    Формат файлаpdf
    Имя файлаКорреляционно-регрессионный анализ связи показателей коммерческо.pdf
    ТипУчебное пособие
    #19364
    КатегорияЭкономика. Финансы
    страница3 из 10
    1   2   3   4   5   6   7   8   9   10
    22
    ра». Второй показатель характеризует другую изучаемую связь «Количество пойманных мышей – продолжительность сна, часы». Отметим, что второй коэффициент имеет знак минус, что говорит об обратном соотношении ука- занных параметров (в общем-то, понятно, чем больше спит Матроскин, тем менее эффективной становится охота на мышей).
    Теперь надлежит дать статистическую оценку выполненных нами расчетов, т.е. проверить на адекватность рассматриваемые события. Для это- го сопоставим расчетные значения коэффициентов r
    расч с табличным показа- телем r
    крит
    . Используя прил. 1, находим, что для уровня значимости (т.е. веро- ятности допустимой ошибки в прогнозе)
    α = 0,05 и заданного числа измере- ний n табличное значение r
    крит
    = 0,754.
    Как видно, в обоих случаях выполняется соотношение
    r
    расч
    r
    крит
    ⎪, а посему озабоченный дядя Федор с уверенностью 95 % может полагать, что между рассматриваемыми числовыми совокупностями существует корреля- ционная связь. Вместе с тем резонно утверждать, что обсуждаемые причины вполне можно ранжировать по степени влияния – более существенную роль играют погодные условия, но и мнение пса Шарика, как видно, имеет стати- стическое обоснование.

    связи показателей коммерческой деятельности с использованием программы Excel
    ГОУ ВПО УГТУ
    УПИ – 2005
    23
    Рис.5. Диалоговое окно ввода параметров корреляции
    Примечание.Заметим, что в таблице для r
    крит
    (прил.1) вместо привыч- ных значений числа измерений n стоит показатель f , характеризующий так называемую степень свободы. Число степеней свободы в статистике опреде- ляется как разность между количеством опытов (измерений) n и числом ко- эффициентов (констант), которые уже рассчитаны по результатам этих опы- тов, т.е. f = n

    k , где k – это количество вычисленных констант. В нашем случае в формуле для r участвуют две константы
    x и

    y, поэтому на r оста- ется только n

    2 «свободных» измерений, т.е. n

    2 = 7
    − 2 = 5.

    Бараз В.Р.
    Корреляционно-регрессионный анализ
    ГОУ ВПО УГТУ
    УПИ – 2005
    24
    1.4. О ложной корреляции (влияние «третьего фактора»)
    Часто корреляцию и причинную обусловленность считают синонима- ми. Этот тезис имеет определенные основания, поскольку если нечто являет- ся причиной чего-либо другого, то можно говорить о связи первого и второго и, следовательно, об их коррелированности (например, действие и результат, проверка и качество, капиталовложения и прибыль, окружающая среда и прибыль).
    Однако корреляция может быть и без причинной обусловленности.
    Это можно представить так: корреляция
    − лишь число, которое указывает на то, что большим значениям одной переменной соответствуют большие (или же меньшие) значения другой переменной. Корреляция не может объяснить,
    почему эти две переменные связаны между собой. Так, корреляция не объяс- няет, почему капиталовложения порождают прибыль (или наоборот). Корре- ляция просто констатирует, что между этими величинами существует опре- деленное соответствие. И не более того.
    Одним из возможных оснований для существования «корреляции без причинной обусловленности» является наличие некоторого скрытого, нена- блюдаемого, третьего фактора, который «маскируется» под другую пере- менную. В результате фиксируется так называемая «ложная корреляция».
    Допустим, нами выявлена высокая корреляция между приемом на работу новых менеджеров и созданием новых производственных мощностей. Возможно, именно менеджеры являются «причиной» капиталовложений в новые производственные мощности? Или же, наоборот, создание новых производственных мощностей послужило «причиной» приема на работу новых менеджеров? Скорее всего, однако, здесь проявляется действие третьего фактора
    − высокой потребности в продукции фирмы, что и послужило причиной и приема на работу новых менеджеров, и создания новых производственных мощностей.

    связи показателей коммерческой деятельности с использованием программы Excel
    ГОУ ВПО УГТУ
    УПИ – 2005
    25
    В истории статистики известен один классический пример. Он касает- ся курьезного исследования под условным названием «Аисты приносят де- тей». Так, в шведской столице в течение 73 лет регистрировалось число но- ворожденных в год (у) и число аистов (х), которых содержало население.
    Указанные данные были сведены в таблицу, и по ним был рассчитан коэф- фициент парной корреляции. Он оказался близок к единице, так что фор- мально никакой статистики и не требовалось для проверки. Все эксперимен- тальные точки аккуратно улеглись на прямую, т.е. практически указанную связь следовало бы толковать как чисто функциональную.
    Поскольку утверждение, содержащее в упомянутом тезисе, довольно сомнительное, было решено поискать другое разумное объяснение. Оказа- лось, что одновременные синхронные изменения числа аистов и числа дети- шек объясняются изменением среднего уровня жизни жителей Стокгольма.
    Эта переменная первоначально не являлась предметом рассмотрения, отчего и случился такой забавный курьез вследствие ложной корреляции.
    В качестве статистического показателя может быть использован также
    коэффициент (индекс) детерминации (причинности) R
    2
    , который равен квадрату коэффициента корреляции (r
    2
    ). Он показывает, в какой мере измен- чивость у (результативного признака) объясняется поведением х (факторного признака), или иначе: какая часть общей изменчивости у вызвана собственно влиянием х. Этот показатель вычисляется путём простого возведения в квад- рат коэффициента корреляции. Тем самым доля изменчивости у, определяе- мая выражением 1
    R
    2
    , оказывается необъясненной.
    Допустим к примеру, что коэффициент корреляции совокупности данных, относящихся к производственным затратам, равняется 0,869193.
    Следовательно, значение R
    2
    равно
    R
    2
    = 0,869193 2
    = 0,755 или 75,5 %.
    Это значение R
    2
    говорит о том, что 75,5 % вариации (изменчивости), скажем, недельных затрат объясняется количеством изделий, выпущенных за

    Бараз В.Р.
    Корреляционно-регрессионный анализ
    ГОУ ВПО УГТУ
    УПИ – 2005
    26
    неделю. Остальная часть (24,5 %) вариации общих затрат объясняется каки- ми-то другими причинами. Это значит, что более чем на 75 % мы знаем, что влияет на изменение изучаемого параметра, но почти на 25 % ничего путного сказать не можем о причинах наблюдаемой изменчивости.
    Величина этого коэффициента меняется в пределах от 0 до 1. Чем ближе он к единице, тем, следовательно, меньше в нашей модели процесса влияние неучтенных факторов и тем больше оснований считать, что указан- ная зависимость отражает степень эффективности воздействия изучаемого фактора.
    1.5. Измерение степени тесноты связи
    между качественными признаками (ранговая корреляция)
    При определении корреляционной зависимости нужно было иметь числовой набор двух совокупностей. Однако возможны случаи, когда имеющиеся данные не поддаются выражению числом единиц.
    Это обстоятельство заставляет прибегать к использованию так назы- ваемых непараметрических методов. Они позволяют измерять интенсив- ность взаимосвязи между качественными (атрибутивными) признаками. В основу непараметрических методов положен принцип нумерации значений статистического ряда.
    Каждой единице массива присваивается порядковый номер (ранг) в ряду, который будет упорядочен (ранжирован) по уровню признака.
    Следовательно, важным условием является возможность сделать рас- сматриваемые совокупности упорядоченными.
    Предварительное представление о наличии или отсутствии связи ме- жду рассматриваемыми массивами можно получить, если сопоставить после- довательность взаимного расположения рангов факторного (воздействующе- го) и результативного (подверженного влиянию) признаков. Для этого ранги измеренных значений факторного признака располагают в порядке возраста- ния. Если ранги результативного признака обнаруживают тенденцию к уве-

    связи показателей коммерческой деятельности с использованием программы Excel
    ГОУ ВПО УГТУ
    УПИ – 2005
    27
    личению, то можно говорить о наличии прямой связи. Если картина проти- воположная, то и связь толкуется как обратная.
    В статистике известны коэффициенты корреляции, основанные на ис- пользовании рангов. Одним из таковых является коэффициент корреляции
    рангов Спирмена. Он основан на рассмотрении разности рангов значений
    факторного и результативного признаков и ее обозначают как d
    i
    Представим себе, что имеются две выборки, которые классифициро- ваны по каким-то двум признакам: х и у.
    Выборки (их объем):
    1, 2, 3, …, n
    1-я совокупность (признак х):
    х
    1
    ,
    х
    2
    , х
    3
    , …, х
    n
    2-я совокупность (признак у):
    у
    1
    ,
    у
    2
    ,
    у
    3
    , …, у
    n
    .
    Здесь оба параметра х и у принимают только целочисленные значения в количестве, равном n.
    Тогда формула коэффициента корреляции рангов Спирмена (этот ко- эффициент именуют р) имеет следующий вид:
    )
    1
    (
    6 1
    2 1
    2


    =

    =
    n
    n
    d
    p
    n
    i
    i
    , где d
    i
    = x
    i

    y
    i
    Рассмотрим определение этого коэффициента на следующем примере.
    Студенты третьего курса, обучающиеся по специальности «Ком-
    мерция (торговое дело)», проходили производственную практику в качестве
    стажеров на двух фирмах, занимающихся торгово-закупочными операциями
    с цветными металлами. Число студентов составляло 12 человек. Они рабо-
    тали вначале в течение двух недель на фирме «Колокольный звон», зани-
    мающейся в основном изделиями из бронзы, а остальные две недели – на
    фирме «Мельхиор», коммерческий интерес которой преимущественно был
    направлен на торговлю декоративно-ювелирными изделиями из медноникеле-
    вых сплавов. Получив жалование, заработанное усердным трудом, ребята
    решили выяснить, отличаются ли принципиально их материальные успехи в

    Бараз В.Р.
    Корреляционно-регрессионный анализ
    ГОУ ВПО УГТУ
    УПИ – 2005
    28
    зависимости от того, где они приобретали практические навыки своей бу-
    дущей профессии.
    Эту задачу мы постараемся решить двумя приемами. Вначале выпол- ним необходимые расчеты «вручную», проведя все необходимые рутинные операции с использованием вспомогательных табличных материалов, а также последующих скучных расчетов. Затем решим ту же задачу, воспользовав- шись помощью замечательного Excel.
    Итак, в табл.3 укажем условные порядковые номера студентов, их за- работок (тыс. руб.) на каждой фирме, соответствующее условное место
    (ранг), который они занимают в зависимости от размера заработка, а также все необходимые вспомогательные выкладки.
    Как видно из результатов сопоставления рангов материальных дости- жений студентов, их фактические показатели выглядят достаточно пестро. В одних случаях ранги были вполне совпадающими (например, у студентов под номерами 2, 8 и 12, но особенно полное совпадение у студентов с номерами 7 и 10), в других же заметно различались (например, у студентов под номерами 3, 5, 6 и 11). Возникает вопрос: насколько точно можно было прогнозировать успешную (или, напротив, менее удачную) ра- боту студентов в указанных фирмах? Для ответа вычислим коэффициент корреляции рангов Спирмена, используя результаты расчетов в графе 7:
    )
    1
    (
    6 1
    2 1
    2


    =

    =
    n
    n
    d
    p
    n
    i
    i
    =
    633
    ,
    0
    )
    1 12
    (
    12 105 6
    1 2
    =

    ×

    Как и линейный коэффициент корреляции, коэффициент корреляции рангов может также меняться от
    −1 до +1. Используя шкалу Чеддока, по ре- зультатам расчетов коэффициента Спирмена можно предположить наличие заметной прямой зависимости между итогами работы студентов на данных фирмах. Однако следует учесть, что ранговый показатель был рассчитан по небольшому объему исходной информации (n = 12). Не является ли отличие

    связи показателей коммерческой деятельности с использованием программы Excel
    ГОУ ВПО УГТУ
    УПИ – 2005
    29
    рангового коэффициента от нуля лишь следствием случайных совпадений результатов деятельности студентов на обеих фирмах? Иначе говоря, указан- ные совпадения не есть результат влияния каких-то иных факторов (дурной характер работодателя, финансовое положение фирмы, знойная жара в этот период лета и проч.), а всецело определяются усердием самих студентов.
    Чтобы ответить на этот вопрос более определенно, оценим статисти- ческую значимость расчетного коэффициента. Для этого его значение р
    расч нужно сопоставить с критическими (табличными)
    р
    табл
    . Используется табли- ца, напоминающая таблицу t-критерия (прил.2).
    Найдем табличное значение коэффициента р
    табл
    , для
    α = 0,05 и n = 12 его величина составит 0,580. Поскольку р
    расч
    > р
    табл
    (0,633 и 0,580), то с веро- ятностью 95 % можно утверждать, что исследуемая связь является значимой.
    Однако для уровня значимости
    α = 0,01 табличное значение р
    табл
    = 0,723. Тем самым уже для вероятности 99 % наличие связи становится неочевидной.
    Таким образом, общий вывод можно свести к следующему тезису: следовало бы повысить число обследуемых студентов (увеличить объем вы- борки), а при отсутствии такой возможности высказанные оценки следует воспринимать с определенной осторожностью.

    Бараз В.Р.
    Корреляционно-регрессионный анализ
    ГОУ ВПО УГТУ
    УПИ – 2005
    30
    Т а б л и ц а 3
    Расчетная таблица для определения
    коэффициента корреляции рангов Спирмена
    Поряд- ковый номер студен- та
    Заработок, фирма «Коло- кольный звон», тыс.
    руб. (х)
    Заработок, фирма
    «Мельхиор»,
    тыс. руб. (у)
    Ранг
    R
    x
    Ранг
    R
    y
    Разность рангов
    d =
    R
    x
    -
    R
    y

    d
    2
    1 2
    3 4
    5
    6
    7
    1 2
    3 4
    5 6
    7 8
    9 10 11 12 2,8 3,1 2,0 3,2 2,4 3,3 2,2 1,8 2,5 2,3 3,5 3,4 3,3 3,0 2,8 4,1 2,1 2,7 2,5 2,3 3.2 2.6 3,1 4,5 6
    5 11 4
    8 3
    10 12 7
    9 1
    2 3
    6 7
    2 12 8
    10 11 4
    9 5
    1 3
    1 4
    2 4
    5 0
    1 3
    0 4
    1 9
    1 16 4
    16 25 0
    1 9
    0 16 1
    Итого
    105
    Заметим, что ранговый коэффициент корреляции Спирмена может быть использован не только для оценки связи качественных признаков, но и количественных. Принципиальное условие
    − значения признаков поддаются ранжированию (как именно
    − по степени убывания или возрастания − это не важно).
    Теперь ту же задачу мы решим, используя компьютерные расчеты. В данном случае Excel нам поможет выполнить рутинные расчеты, хотя сама процедура поиска коэффициента корреляции Спирмена будет носить схожий характер.

    связи показателей коммерческой деятельности с использованием программы Excel
    ГОУ ВПО УГТУ
    УПИ – 2005
    31
    Итак, запустим программу Excel. В открывшемся рабочем листе Excel
    (Лист 1) сформируем исходную таблицу, в которой поместим данные, соот- ветствующие содержимому колонок 1-3 табл.3. Эта таблица будет распола- гаться в ячейках A1:C13. Итоговый результат представлен на рис.6.
    Рис.6. Исходные данные в таблице Excel
    Далее будем двигаться следующим образом: запустим опции Сер-
    вис/Анализ данных/Ранг и персентиль.
    Примечание.Тут следует дать предварительное пояснение. В отно- шении рангов рассуждения у нас уже были. Теперь дадим разъяснение по по- воду термина персентиль (или, как принято писать, перцентиль).
    Как уже говорилось, для характеристики формы распределения ва- риационного ряда применяют ранговые показатели. Под этим понимают та- кие единицы исследуемого массива, которые занимают определенное место в вариационном ряду (например, десятое, двадцатое и т.д.). Они получили название квантилей или градиентов. Квантили в свою очередь подразделя-

    Бараз В.Р.
    Корреляционно-регрессионный анализ
    ГОУ ВПО УГТУ
    УПИ – 2005
    32
    ются на квартили
    ,
    децили и перцентили. Различие между ними в том, на ка-
    кое количество частей делится вариационный ряд. Если на 4 части
    − это квартили; на 10
    − децили и, наконец, на 100 − перцентили.
    Поясним это на примере перцентилей. Перцентили
    − это характе- ристики набора данных, которые выражают ранги элементов массива в виде процентов от 0 до 100 %, а не в виде чисел от 1 до n. В результате наимень- шему значению соответствует нулевой перцентиль, наибольшему
    − 100-й перцентиль, медиане
    − 50-й перцентиль и т.д. Следовательно, перцентили можно рассматривать как показатели, разбивающие анализируемый массив на определенные части.
    Заметим, что перцентиль представляет собой какой-то элемент мас- сива, имеющий определенный ранг и выраженный в тех же единицах, что и сам массив в целом. Так, 60-й перцентиль эффективности сбора металлолома в конторе «Ржавая подкова» составляет, скажем, 85062 руб. (измерен не в процентах, а в рублях, как элемент набора данных). Если этот 60-й перцен- тиль, равный 85062 руб., характеризует деятельность определенного агента по заготовкам (например, г-на Пупкина), то это означает, что примерно 60 % других тружеников имеют результат ниже, чем у г-на Пупкина, а 40 %
    − бо- лее высокие показатели.
    Перцентили используются для двух целей:
    − чтобы показать значение элемента в массиве при заданном перцен- тильном ранге (например, «10-й перцентиль равен 46293 руб.»);
    − чтобы показать перцентильный ранг значения данного элемента в рассматриваемом массиве статистических данных (например, «эффектив- ность заготовок металлолома агента г-на Козлевича составляет 65994 руб., что соответствует 55-му перцентилю»).

    связи показателей коммерческой деятельности с использованием программы Excel
    ГОУ ВПО УГТУ
    УПИ – 2005
    1   2   3   4   5   6   7   8   9   10


    написать администратору сайта