Системный анализ. 2009_Ракитов АИ и др_Системный анализ и аналитические исследован. Руководство для профессиональных аналитиков москва 2009 rv удк 001. 51 Ббк72 с 40
Скачать 2.27 Mb.
|
7.3. Основные понятия теории вероятностей, Наиболее распространенной формой группировки экспериментальных данных являются статистические таблицы. Таблицы бывают простыми и сложными. К простым относятся таблицы, применяемые при альтернативной группировке, когда одна группа испытуемых противопоставляется другой; например, здоровые - больным, высокие люди - низким и т.п. Простые таблицы рекомендуется использовать, когда измерение изучаемых признаков производится в номинативной или ранговой шкале. При анализе финансовых и торговых операций, оценке электората также применяются таблицы. Умение составлять таблицы из первичного «сырого» статистического материала пришло к людям не сразу. Еще в XVIII в. таких умельцев уважительно называли «та- буляристами». К первым российским табуляристам относился знаменитый сподвижник П ЕТРА I И ВАН К ИРИЛЛОВ Усложнение таблиц происходит за счет возрастания объема и степени дифференцированности представленной в них информации. К сложным таблицам относят так называемые многопольные таблицы, которые могут использоваться при вьшснении причинно-следственных отношений между варьирующими признаками. Такие таблицы, как правило, имеют сложное строение, позволяющее одновременно осуществлять разные варианты группировки данных 52 . Примером сложной таблицы служит следующая таблица 4, в которой представлены классические данные Ф. Г АЛЬТОНА 53 , иллюстрирующие наличие положительной зависимости между ростом родителей и их детей. 52. См , например, примеры заполнения компьютерных баз данных в части 4 настоящей книги 53. Цит по книге Е РМОЛАЕВ О Ю. Математическая статистика для психологов - М.. Флинта, 2006 Таблица 4 Рост родителей Рост детей в дюймах Всего 60,7 62,7 64,7 66,7 68,7 70,7 72,7 74,7 74 4 4 72 1 4 11 17 20 6 62 70 1 2 21 48 83 66 22 8 251 68 1 15 56 130 148 69 11 430 66 1 15 19 56 41 11 1 144 64 2 7 10 14 4 37 Всего 5 39 107 255 387 163 58 14 928 Таблица организована таким образом, что позволяет оценить частоту встречаемости в популяции однозначно фиксируемых соотношений роста родителей и роста ребенка. Например, при низком росте родителей в 66 дюймов (1 дюйм равен 2,54 см) только один из 144 обследованных детей имел рост в 60,7 дюймов, а 56 детей имели рост 66,7 дюйма. В то же время высокий рост детей (74,7 дюйма) был зафиксирован только в тех семьях, где родители имели рост не ниже 70 дюймов. Эта таблица позволяет выявить следующую тенденцию: у высоких родителей, как правило, дети имеют высокий рост, а у низкорослых родителей чаще бывают дети невысокого роста. Пример показывает, что таблицы имеют не только иллюстративное, но и аналитическое значение, позволяя обнаруживать разные аспекты связей между варьирующими признаками. Следует запомнить, что правильно составленные таблицы - это большое подспорье в аналитической работе, позволяющее одновременно осуществлять разные варианты группировки полученных данных. Особую форму группировки данных представляют так называемые статистические ряды, или числовые значения признака, расположенного в определенном порядке. 238 239 с - с . max mm 3,22-lgff где в числителе - разность максимального и минимального вариантов (в нашем примере 4,8% и 83,6%), а в знаменателе - некая константа, умноженная на логарифм числа случаев (в нашем примере 93). Из формулы Стерджеса следует, что для нашего случая оптимальное значение ширины интервала Ас= 10%. После группировки строится вариационный ряд в виде таблицы или гистограммы. По оси абсцисс откладывается значение признака, а по оси ординат - соответствующая этому значению частота. На рис. 11 приведены две гистограммы, построенные по данным нашего примера. 20 ' 40 &> 80 100 Процент голосов за кандидата N Рис. 11. Гистограммы, построенные по данным обработки «сырого» массива из 93 случаев (слева - гистограмма для близкой к оптимальной ширине интервала в 10% голосов, справа - гистограмма для слишком грубого разбиения вариационного ряда на 5 интервалов по 20% голосов в каждом) Первая из них - с оптимальным размером интервала группировки, вторая (для сравнения) - с неоправданно большим размером интервала. При оптимальном выборе характеристик гистограммы легко определить т. н. «модальный» интервал, соответствующий наиболее часто встречающемуся варианту. Так, в нашем примере, наибольшее число участков зафиксировало 20- 30% голосов за кандидата N. С помощью графиков аналитику приходится искать также ответы на вопросы следующего типа. Сколько единиц совокупности (или какой процент) имеют значения, превышающие (или не превышающие) заданную величину? Для ответа на подобный вопрос вычисляются кумулятивные (накопленные) частоты ряда распределения и строится кумулятивная гистограмма, или кумулята. Различают два типа кумулятивных гистограмм: «меньше, чем ...» и «более, чем ...». Кумулятивные частоты для первого типа получаются последовательным суммированием (абсолютных или относительных) частот групп от низшей группы к высшей, а для второго типа, наоборот, от высшей к низшей. Для построения кумуляты на координатной плоскости отмечаются точки, абсциссы которых являются точными верхними границами групп для полигона типа «меньше, чем...» или точными нижними границами для полигона типа «более, чем...», а ординаты - значениями соответствующих кумулятивных частот. Следует различать гистограммы и столбиковые диаграммы. В общем случае столбиковые диаграммы представляются в виде набора отдельных столбиков, изображающих значения или уровни исследуемого показателя. Столбики чертятся в системе прямоугольных координат: по горизонтальной оси откладываются основания столбиков (размер произвольный, но, как правило, одинаковый для всех), а по вертикальной оси - высота столбика, характеризующая величину показателя в определенном масштабе. Располагаться столбики на горизонтальной оси могут по-разному: на одинаковом расстоянии друг от друга, вплотную друг к другу, от- 244 245 Ас- 20 40 60 80 100 Процент голосов за кандидата N д 8 9 1 0 ' 1 1 " Т2 Варианты х Рис. 12. Столбиковая диаграмма, соответствующая ряду распределения таб. б Если поменять местами вертикальную и горизонтальную оси графика столбиковой диаграммы, то она трансформируется в полосовую диаграмму. Столбики в этом случае становятся полосами, а масштабная шкала, по которой измеряются их длины, откладывается по горизонтальной оси. Наряду со столбиковыми и полосовыми диаграммами для изображения временных рядов показателей используются линейные диаграммы или просто линейные графики. Они чертятся на координатной плоскости, где по оси х откладываются временные интервалы, а по оси у — значения показателей. Для гра- фического отображения структурных показателей различных совокупностей, характеризующих соотношение их различных частей, применяются секторные диаграммы, где в качестве графического образа используется круг, разбитый на секторы. Площадь каждого сектора пропорциональна удельному весу каждой отдельной структурной части. Рассмотренные типы диаграмм являются примерами графических методов описательной статистики. Следует отметить, что если предварительная группировка «сырых» данных и построение гистограмм и ку-мулят производятся на основе значений только одного варьирующего признака, то столбиковые, полосовые, линейные и секторные диаграммы позволяют анализировать статистическую информацию, классифицированную одновременно по нескольким признакам. Все указанные выше виды диаграмм могут быть представлены с помощью соответствующих современных компьютерных программ. 7.5. От дискретных к непрерывным случайным величинам В социологическом, маркетинговом анализе, в любом аналитическом исследовании приходится иметь дело с совокупностью, включающей много единиц. С формальной точки зрения такой анализ представляет собой массовые испытания. Формула Бернулли 55 как раз и «перебрасывает мостик» от испытаний единичных к испытаниям массовым, статистическим. Поэтому она так популярна в среде аналитиков. Первоначально основным применением формулы было обслуживание запросов азартных игроков в кости. Формула отвечала на «алчные» вопросы типа: «Если монета подбрасывается 20 раз, то какова вероятность выпадения 15 «орлов»?» Сегодня формула Бернулли обслуживает научные интересы в разных областях и описывает 55 Я КОБ Б ЕРНУЛЛИ (1654-1705) - швейцарский математик 246 247 п где С.-=- т\(п -т)\ Здесь р - вероятность появления интересующего нас события в единичном испытании, q - вероятность противоположного события в единичном испытании, С^ - число сочетаний из п элементов по т. Напомним, что факториал (обозначен восклицательным знаком) представляет собой последовательное произведение соответствующего последовательного ряда натуральных чисел. Например, 6!=1-2-3-4-5-6=720. По определению 0!=1. Напомним также, что при небольшом числе испытаний число сочетаний можно определить и без вычислений. Определим число сочетаний из 4 элементов - а, Ъ, с, d - по два элемента. Вот они, эти сочетания: ab, be, ас, bd, ad, cd. Как видим, их шесть. Таким образом, в данном случае имеются всего 6 возможностей для организации пар элементов. Таким образом, С^=6. В более сложных случаях все-таки придется проводить вычисления по приведенной выше формуле для С^. Рассмотрим следующую классическую задачу, на примере которой принято разъяснять практическую значимость формулы Бернулли. Необходимо найти вероятность того, что в родильном доме в случайной группе из 20 новорожденных: A. Окажется 10 мальчиков. Б. Окажется 9 мальчиков. B. Окажется 8 мальчиков и т.д. Решение этой задачи следующее. Для упрощения можно считать, что, в среднем, шансы рождения ребенка того или иного пола одинаковы. Поэтому вероятность обнаружения мальчика в единичном испытании положим равной р=0,5. Соответственно, вероятность противоположного события q=0,5. Из условий задачи прямо следует, что п=20. Величина т зависит от того, сколько мальчиков нас интересует в каждом конкретном случае. Так, при т=10 из формулы Бернулли следует: Р 2О (1О)=С2о*(О,5) 1О *(О,5) 1О =О,18 Расчеты для других значений т дают следующие результаты: Р 20 (6)=0,04 Р 20 (5)=0,015 Р 20 (4)=0,005 Результаты молено представить в виде следующего графика (рис. 13). 0,20 -. 0,15 . 0,10 . 0,05 . 0,00 1 2 3 4 5 б 7 8 9 10 11 12 13 14 15 16 17 18 19 Событие: число мальчиков, обнаруженных в группе из 20 новорожденных Рис. 13. Столбиковая диаграмма, показывающая вероятность обнаружения того или иного числа мальчиков в группе из 20 новорожденных 248 249 Р 20 (9)=0,16 Р 20 (8)=0,12 Р 20 (7)=0,07 Р= 0,0000+0,005+0,0023+0,0076+ +0,0189+0,0378+0,0631 = 0,1302. Вероятность оказалась равной всего лишь 0,13. Эта величина указывает на то, что мы занялись явно невыгодным бизнесом. А теперь предположим, что вероятность пожара на даче р=0,002 и, следовательно, пр=2. В этом случае искомая вероятность Р равна сумме Р= 0,1353+0,2707+0,2707+0,1804+ +0,0902+0,0361+ 0,0120 = 0,9954. Вот теперь наш страховой бизнес оказывается явно выгодным. Закон редких событий практически гарантирует (с вероятностью 0,9954), что не менее 2/5 суммы, вырученной при страховании, получит наша страховая фирма. Вернемся к рассмотрению биномиального распределения при «разумных» значениях р, принимающих значения в пределах от 0 до 1. В симметричных задачах «колокол» с характерным изгибом также характеризует и основополагающее в статистической науке т.н. Гауссово 59 (нормальное) распределение. Это неудивительно, потому что с ростом числа испытаний п биномиальное распределение как раз и переходит в распределение Гауссово. Однако вычисления по формуле Бернулли для более 50 испытаний уже представляют существенную техническую проблему, расчеты становятся невыносимо громоздкими. Например, практически невозможно, пользуясь формулой Бернулли, решить следующую задачу из области кадрового менеджмента. На фирме работают 1825 со- 59 К АРЛ -Ф РИДРИХ Г АУСС (1777-1855) - знаменитый немецкий математик 252 трудников. Какова вероятность того, что 1 сентября является днем рождения одновременно четырех (пяти, шести...) сотрудников? Приходится искать другие пути решения. Начиная с XVIII в. математики пытались решить проблему вероятности успеха в массовых испытаниях. Решение было найдено с введением в научный обиход понятия «непрерывной случайной величины». Мы уже отмечали, что случайные величины могут носить как дискретный, так и непрерывный характер. Были рассмотрены основные законы распределения дискретных случайных величин, которые часто используются в прикладном статистическом анализе. Теперь перейдем к описанию непрерывных случайных величин и их законов распределения. Дискретная случайная величина является прерывной, т.е. все ее возможные значения отделены друг от друга конечными интервалами и могут быть заранее перечислены. Дискретная случайная величина в вероятностном смысле будет полностью определена, если задан ее ряд распределения. С непрерывной случайной величиной так не получится. Возможные значения непрерывной случайной величины непрерывно заполняют некоторый промежуток и не могут быть заранее перечислены. Примерами непрерывных случайных величин могут служить сроки службы различных товаров: электрических лампочек, батареек, автомобильных покрышек, электроприборов и т.п. Так, срок службы каждого из перечисленных товаров может измеряться промежутком времени от нуля до некоторой конечной верхней границы. В общем случае непрерывные случайные величины могут характеризовать результаты измерений: длительности процесса, веса, длины, площади, высоты, напряжения в электросети и т.д. Теоретически (предполагается, что возможна любая точность измерений) результат измерения может быть выражен любым действительным числом, взятым из некоторого промежутка. Для нас очень важно то обстоятельство, что свойствами непрерывной случайной величины обладают Для непрерывной случайной величины записать таблицу ряда распределения невозможно, так как она должна включать все ее значения, а непрерывная случайная величина имеет бесконечное множество значений, которые нельзяи перечислить. Поэтому для характеристики распределения вероятностей непрерывной случайной величины удобно пользоваться вероятностью события Х<х, где х - некоторая текущая переменная. Очевидно, вероятность того, что Х<х, зависит от текущей переменной х и является некоторой функцией от х. Эта функция называется функцией распределения случайной величины х и обозначается F(x): F(x) = P(X Функция распределения F(x) называется также интегральной функцией распределения или интегральным законом распределения. Функция распределения может существовать как для непрерывных, так и для дискретных случайных величин. С вероятностной точки зрения функция распределения полностью характеризует случайную величину, т.е. является одной из форм закона распределения. Для непрерывной случайной величины функция распределения представляет собой функцию, непрерывную и дифференцируемую во всех точках. Ее график является плавной кривой, имеющей касательную в любой точке. Ее значения лежат в интервале от 0 до 1. На практике часто возникают ситуации, когда требуется определить вероятность того, что случайная величина принимает значения, находящиеся в некотором промежутке, например от а до р. Другими словами, требуется определить вероятность события а<х<р. Было отмечено, что F(x) имеет производную в любой точке х. По определению производной: F(x+Ax)-F(x) Ах Введем обозначение Функция Дх) характеризует плотность 60 , с которой распределяются значения вероятности случайной величины в данной точке. Она называется плотностью распределения непрерывной случайной величины X. Ее также называют дифференциальной функцией распределения. График кривой, изображающей плотность распределения, называется кривой распределения. Приближением кривой распределения является сглаженный полигон, рассматриваемый ранее как кривая частотного распределения данных. Плотность распределения является одной из форм закона распределения. Однако она не является универсальной и существует только для непрерывных случайных величин. Очень важно учитывать, что площадь, ограниченная кривой распределения и осью абсцисс, равна единице. Количественные характеристики непрерывной случайной величины выражаются в виде интегралов 6Х 60. Плотность вероятности, плотность распределения вероятностей (distribution density) - характеристика ряда распределения, показывающая, сколько единиц совокупности приходится на единицу интервала. 61. С УЛИЦКИЙ В Н. Методы статистического анализа в управлении. - М : Дело, 2002. 254 255 lim= ЛХ-.0 -ее характерный изгиб. И, наконец, самое главное обстоятельство для практических применений состоит том, что площадь под кривой равна 1. 0,4 0,3- -3 Рис. 14. Кривая нормального (Гауссовою) распределения, приведенного к стандартному виду (площадь под кривой в пределах от х-1 до х=1 составляет 68% общей площади под кривой) Фактически существует бесконечное множество нормальных кривых, отличающихся друг от друга парой значений л: и ст. Что же общего у всех этих нормальных кривых? Для наших целей - например, для вычисления распределений при игре на бирже - их наиболее важное общее свойство заключается в доле площади под кривой между любыми двумя точками, выраженными в стандартных отклонениях. Например, в любом нормальном распределении приблизительно: 1. 68% площади под кривой лежит в пределах одной ст от среднего х в любом направлении (то есть в пределах х±а); 258 2. 95% площади под кривой лежит в пределах двух ст от среднего х; 3. 99,7% площади под кривой лежит в пределах трех ст от среднего х. Возвращаясь к формуле Бернулли, отметим, что при определенных условиях нормальное распределение используется в качестве биномиального распределения в случае, если расчет биномиальных вероятностей затруднен. Основная проблема, которая здесь возникает, заключается в том, что дискретное биномиальное распределение заменяется непрерывным нормальным законом распределения. Поэтому при замене вводится специальная корректировочная величина, которая называется «поправкой на непрерывность». Как оказалось, нормальный закон распределения встречается в теории вероятностей и ее приложениях весьма часто. Уже Л АПЛАС обратил внимание на то, что по нормальному закону распределяются случайные ошибки измерений. Он же предположил, что это связано с наличием болыпого количества независимо действующих причин, под воздействием которых появляются ошибки в измерениях. П.Л. Ч ЕБЫШЁВ развил эту мысль и доказал в конце 80-х годов XIX столетия важную предельную теорему, согласно которой при выполнении некоторых специальных условий распределение для суммы п независимых случайных величин приближается в пределе при п-*оо к нормальному закону распределения. Спустя десять с небольшим лет (в 1901 г.) эту предельную теорему в более общем виде доказал ученик и последователь П.Л. Ч ЕБЫШЕ - ВА A.M. Л ЯПУНОВ В его формулировке предельная теорема получила название центральной предельной теоремы. Важный пример, иллюстрирующий практическую важность центральной предельной теоремы, связан с массовым производством, существующим ныне во многих отраслях народного хозяйства. При массовом производстве изготавливаются огромные партии однотипных изделий, характеристики которых должны, разумеется, соответствовать определенным стандартам. Разнообразные факторы случайного характера неизбеж- 259 -2 -1 Таких факторов много; это связано, в частности, с тем, что выпуск изделия предполагает, как правило, большое число операций, а все они выполняются лишь с какой-то степенью точности. Каждый фактор в отдельности порождает ничтожное отклонение от стандарта, характеризуемое случайной величиной X; сумма же £Х может давать ощутимые отклонения. Согласно центральной предельной теореме суммарное отклонение от стандарта (случайная величина £Х) должно иметь закон распределения, близкий к нормальному. Д Е М УАВР , изобретая нормальную кривую для частного применения, то есть для получения простого приближенного решения в приложениях теории вероятностей, и представить себе не мог, что его открытие найдет применение во многих задачах бизнеса, управления и политики, прогнозирования социально- экономического развития. Действительно, нормальное распределение получило удивительно широкое распространение. Оно играет важную роль как в описательной статистике, так и в теории статистического вывода. Иногда складывается неправильное представление, что существует необходимая связь между нормальным распределением - идеальным описанием некоторых распределений частот - и практически любыми данными. Нормальная кривая - это изобретение математика, довольно хорошо описывающее полигон частот измерений нескольких различных переменных. Никогда не была, да и не будет, получена совокупность данных, которые были бы точно нормально распределены 63 . Множество различных уравнений кривых достаточно хорошо сгладило бы эмпирические графики частот, но возникают известные математические преимущества, когда «данные сглаживаются» нормальной кривой. Известные математические свойства нормальной кривой обеспечивают простые и изящные доказательства во многих задачах теории статистического вывода. 63. Это некоторая математическая модель реального распределения величин в социо-экономической сфере. 260 I Применение нормального закона для решения практических задач зиждется на двух основных принципах. Во-первых, с учетом конкретной задачи нормальная кривая приводится к так называемому «стандартному виду». Стандартный вид кривой соответствует следующим значениям основных параметров: среднему безразмерному арифметическому Зс=О и среднеквадратичному безразмерному отклонению ст=1. Привести кривую к стандартному виду нетрудно м . Например, вы занимаетесь массовым производством мужских костюмов и имеете дело с распределением по росту мужчин определенной возрастной группы. При среднем росте этой группы X = 173 см и среднеквадратичном отклонении а х = 6 см нормальная кривая приобретает стандартный вид, если вы перейдете к новой системе координат и положите: Х-173 где X - исходный рост i-ro мужчины. Теперь новая средняя х неизбежно получится равной нулю, а новое значение о принимает единичное значение. Второй принципиальный момент состоит в том, что исчисление вероятности той или иной группы событий с использованием нормальной кривой состоит в довольно- таки рутинном вычислении фрагмента площади под нормальной кривой, опирающейся на тот или иной отрезок оси абсцисс. С математической точки зрения, вычисление площади под кривой состоит в вычислении интеграла данной функции в пределах данного отрезка. Для нормальной кривой вычисление данного интеграла (так называемого интеграла Лапласа) в обычных функциях невозможно. К счастью, уже давно созданы таблицы этого интеграла, и аналитики всего мира широко этими таблицами пользуются. Их можно найти в любом статисти- 64. Стандартный вид использует безразмерное представление не случайно. Аналитик при решении задачи освобождается от частного - единиц измерения (сантиметров, рублей...) - и получает возможность пользоваться универсальными формулами. 261 Для соответствия заданной выше группы мужчин требуется определить доли костюмов 4 роста (176-182 см) и 3 роста (170-176 см), которые нужно предусмотреть в общем объеме выпуска. После приведения нормальной кривой плотности распределения мужчин по росту, находим по таблице интеграла Лапласа, что доля площади криволинейной трапеции под кривой, опирающейся на отрезок 176-182 см, примерно равна 0,24, а соответствующая доля площади для отрезка 170- 176 см примерно равна 0,38. Таким образом, получаем важный маркетинговый результат: мужскому населению требуется костюмов 4 роста в 1,6 раз меньше, чем костюмов 3 роста. |