А. Б. Шипунов, Е. М. Балдин, П. А. Волкова, А. И. Коробейников, С. А. Назарова
Скачать 3.04 Mb.
|
Что такое данные и зачем их обрабатывать? Группа, которой дают плацебо (она называется контроль), нужна для того, чтобы отделить эффект, который может произвести лекар- ство, от эффекта какого-нибудь постороннего внешнего фактора. Из- вестно, например, что уменьшение длины светового дня осенью и зи- мой провоцирует многие нервные заболевания. Если наше исследование придется на это время и у нас не будет контроля, то увеличение часто- ты заболеваний мы вполне можем принять за результат применения лекарства. 1.2. Генеральная совокупность и выборка «Статистика знает все»,— писали Ильф и Петров в «Двенадцати стульях», имея в виду то, что обычно называют статистикой,— сбор всевозможной информации обо всем на свете. Чем полнее собрана ин- формация, тем, как считается, лучше. Однако лучше ли? Возьмем простой пример. Допустим, фирма-производитель решила выяснить, какой из двух сортов производимого мороженого предпочи- тают покупатели. Проблем бы не было, если бы все мороженое прода- валось в одном магазине. На самом же деле продавцов очень много: это оптовые рынки и гипермаркеты, средние и малые магазины, киоски, отдельные мороженщики с тележками, те, кто торгует в пригородных поездах, и т. п. Можно попробовать учесть доход от продажи каждого из двух сортов. Если они ст 0 оят одинаково, то б 0 ольшая сумма дохода долж- на отразить больший спрос. Представим, однако, что спрос одинаков, но по каким-то причинам мороженое первого сорта тает быстрее. Тогда потерь при его транспортировке будет в среднем больше, продавцы бу- дут покупать его несколько чаще, и получится, что доход от продажи первого сорта будет несколько выше, чем от второго. Это рассуждение, конечно, упрощает реальную ситуацию, но подумайте, сколько других неучтенных факторов стоит на пути такого способа подсчета! Анализ товарных чеков получше, однако многие конечные продавцы таких че- ков не имеют и поэтому в анализ не попадут. А нам-то необходимо как раз учесть спрос покупателей, а не промежуточных продавцов. Можно поступить иначе — раздать всем конечным продавцам анке- ты, в которых попросить указать, сколько какого мороженого продано; а чтобы анкеты были обязательно заполнены, вести с этими продавцами дела только при наличии заполненных анкет. Только ведь никто не бу- дет контролировать, как продавцы заполняют анкеты... Вот и получит фирма большую, подробную сводную таблицу о продажах мороженого, которая ровным счетом ничего отражать не будет. Как же поступить? Здесь на помощь приходит идея выборочных ис- следований . Всех продавцов не проконтролируешь, но ведь нескольких- Как получать данные 13 то можно! Надо выбрать из общего множества несколько торговых то- чек (как выбирать — это особая наука, об этом ниже) и проконтроли- ровать тамошние продажи силами самой фирмы или такими наняты- ми людьми, которым можно доверять. В итоге мы получим результат, который является частью общей картины. Теперь самый главный во- прос: можно ли этот результат распространить на всю совокупность продаж? Оказывается, можно, поскольку на основе теории вероятно- стей уже много лет назад была создана теория выборочных исследо- ваний . Ее-то и называют чаще всего математической статистикой, или просто статистикой. Пример с мороженым показывает важную вещь: выборочные иссле- дования могут быть (и часто бывают) значительно более точными (в смысле соответствия реальности), чем сплошные. Еще один хороший пример на эту же тему есть в результатах сплош- ной переписи населения России 1897 г. Если рассмотреть численность населения по возрастам, то получается, что максимальные численно- сти (пики) имеют возрасты, кратные 5 и в особенности кратные 10. Понятно, как это получилось. Б 0 ольшая часть населения в те време- на была неграмотна и свой возраст помнила только приблизительно, с точностью до пяти или до десяти лет. Чтобы все-таки узнать, каково было распределение по возрастам на самом деле, нужно не увеличивать объем данных, а наоборот, создать выборку из нескольких процентов населения и провести комплексное исследование, основанное на пере- крестном анализе нескольких источников: документов, свидетельств и личных показаний. Это даст гораздо более точную картину, нежели сплошная перепись. Естественно, сам процесс создания выборки может являться источ- ником ошибок. Их принято называть «ошибками репрезентативности». Однако правильная организация выборки позволяет их избежать. А поскольку с выборкой можно проводить гораздо более сложные иссле- дования, чем со всеми данными (их называют генеральной совокупно- стью , или популяцией), те ошибки (ошибки точности), которые возни- кают при сплошном исследовании, в выборочном исследовании можно исключить. 1.3. Как получать данные В предыдущих разделах неоднократно упоминалось, что от пра- вильного подбора выборки серьезным образом будет зависеть качество получаемых данных. Собственно говоря, есть два основных принципа составления выборки: повторность и рандомизация. Повторности нуж- ны для того, чтобы быть более уверенными в полученных результатах, 14 Что такое данные и зачем их обрабатывать? а рандомизация — для того, чтобы избежать отклонений, вызванных посторонними причинами. Принцип повторностей предполагает, что один и тот же эффект будет исследован несколько раз. Собственно говоря, для этого мы в предыдущих примерах опрашивали множество избирателей, ловили в заповеднике много животных, подбирали группы из нескольких де- сятков больных и контролировали различных продавцов мороженого. Нужда в повторностях возникает оттого, что все объекты (даже только что изготовленные на фабрике изделия) пусть в мелочах, но отличают- ся друг от друга. Эти отличия способны затуманить общую картину, ес- ли мы станем изучать объекты поодиночке. И наоборот, если мы берем несколько объектов сразу, их различия часто «взаимно уничтожаются». Не стоит думать, что создать повторности — простое дело. К со- жалению, часто именно небрежное отношение к повторностям сводит на нет результаты вроде бы безупречных исследований. Главное пра- вило — повторности должны быть независимы друг от друга. Это значит, например, что нельзя в качестве повторностей рассматривать данные, полученные в последовательные промежутки времени с одного и того же объекта или с одного и того же места. Предположим, что мы хотим определить размер лягушек какого-то вида. Для этого с интер- валом в 15 минут (чтобы лягушки успокоились) ловим сачком по од- ной лягушке. Как только наберется двадцать лягушек, мы их меряем и вычисляем средний размер. Однако такое исследование не будет удов- летворять правилу независимости, потому что каждый отлов окажет влияние на последующее поведение лягушек (например, к концу лова будут попадаться самые смелые, или, наоборот, самые глупые). Еще хуже использовать в качестве повторностей последовательные наблю- дения за объектом. Например, в некотором опыте выясняли скорость зрительной реакции, показывая человеку на доли секунды предмет, а затем спрашивая, что это было. Всего исследовали 10 человек, причем каждому показывали предмет пять раз. Авторы опыта посчитали, что у них было 50 повторностей, однако на самом деле — только десять. Это произошло потому, что каждый следующий показ не был независим от предыдущего (человек мог, например, научиться лучше распознавать предмет). Надо быть осторожным не только с данными, собранными в после- довательные промежутки времени, но и просто с данными, собранными с одного и того же места. Например, если мы определяем качество те- левизоров, сходящих с конвейера, не годится в качестве выборки брать несколько штук подряд — с большой вероятностью они изготовлены в более близких условиях, чем телевизоры, взятые порознь, и, стало быть, их характеристики не независимы друг от друга. Как получать данные 15 Второй важный вопрос о повторностях: сколько надо собрать дан- ных. Есть громадная литература по этому поводу, но ответа, в об- щем, два: (1) чем больше, тем лучше и (2) 30. Выглядящее несколько юмористически «правило 30» освящено десятилетиями опытной рабо- ты. Считается, что выборки, меньшие 30, следует называть малыми, а б 0 ольшие — большими. Отсюда то значение, которое придают числу тридцать в анализе данных. Бывает так, что и тридцати собрать нельзя, однако огорчаться этому не ст 0 оит, поскольку многие процедуры анали- за данных способны работать с очень малыми выборками, в том числе из пяти и даже из трех повторностей. Следует, однако, иметь в виду, что чем меньше повторностей, тем менее надежными будут выводы. Существуют, кроме того, специальные методы, которые позволяют по- считать, сколько надо собрать данных, для того чтобы с определенной вероятностью высказать некоторое утверждение. Это так называемые «тесты мощности» (см. пример в главе про одномерные данные). Рандомизация — еще одно условие создания выборки, и также «с подвохом». Каждый объект генеральной совокупности должен иметь равные шансы попасть в выборку. Очень часто исследователи полага- ют, что выбрали свои объекты случайно (проделали рандомизацию), в то время как на самом деле их материал был подобран иначе. Предпо- ложим, нам поручено случайным образом отобрать сто деревьев в лесу, чтобы впоследствии померить степень накопления тяжелых металлов в листьях. Как мы будем выбирать деревья? Если просто ходить по ле- су и собирать листья с разных деревьев, с большой вероятностью они не будут собранными случайно, потому что вольно или невольно мы будем собирать листья, чем-то привлекшие внимание (необычностью, окраской, доступностью). Этот метод, стало быть, не годится. Возьмем метод посложнее — для этого нужна карта леса с размеченными коор- динатами. Мы выбираем случайным образом два числа, например 123 м к западу и 15 м к югу от точки, находящейся примерно посередине ле- са, затем высчитываем это расстояние на местности и выбираем дерево, которое ближе всего к нужному месту. Будет ли такое дерево выбрано случайно? Оказывается, нет. Ведь деревья разных пород растут неоди- наково, поэтому у деревьев, растущих теснее (например, у елок), шанс быть выбранными окажется больше, чем у разреженно растущих ду- бов. Важным условием рандомизации, таким образом, является то, что каждый объект должен иметь абсолютно те же самые шансы быть выбранным, что и все прочие объекты Как же быть? Надо просто перенумеровать все деревья, а затем вы- брать сто номеров по жребию. Но это только звучит просто, а попробуй- те так сделать! А если надо сравнить 20 различных лесов?.. В общем, требование рандомизации часто оборачивается весьма серьезными за- тратами на проведение исследования. Естественно поэтому, что нередко 16 Что такое данные и зачем их обрабатывать? рандомизацию осуществляют лишь частично. Например, в нашем слу- чае можно случайно выбрать направление, протянуть в этом направ- лении бечевку через весь лес, а затем посчитать, скольких деревьев касается бечевка, и выбрать каждое энное (пятое, пятнадцатое...) дере- во, так чтобы всего в выборке оказалось 100 деревьев. Заметьте, что в данном случае метод рандомизации состоит в том, чтобы внести в ис- следуемую среду такой порядок, которого там заведомо нет. Конечно, у этого последнего метода есть недостатки, а какие — попробуйте до- гадаться сами (ответ см. в конце главы). Теперь вы знаете достаточно, чтобы ответить на еще один вопрос. В одной лаборатории изучали эффективность действия ядохимикатов на жуков-долгоносиков (их еще называют «слоники»). Для этого хими- кат наносили на фильтровальную бумагу, а бумагу помещали в стек- лянную чашку с крышкой (чашку Петри). Жуков выбирали из банки, в которой их разводили для опытов, очень простым способом: банку с жуками открывали, и первого выползшего на край жука пересаживали в чашку с ядохимикатом. Затем засекали, сколько пройдет времени от посадки жука в банку до его гибели. Потом брали другого жука и так повторяли 30 раз. Потом меняли ядохимикат и начинали опыт снача- ла. Но однажды один умный человек заметил, что в этом эксперименте самым сильным всегда оказывался тот химикат, который был взят для исследования первым. Как вы думаете, в чем тут дело? Какие нару- шения принципов повторности и рандомизации были допущены? Как надо было поставить этот опыт? (См. ответ в конце главы). Для рандомизации, конечно, существует предел. Если мы хотим вы- яснить возрастной состав посетителей какого-то магазина, не нужно во имя рандомизации опрашивать прохожих с улицы. Нужно четко пред- ставлять себе генеральную совокупность, с которой идет работа, и не выходить за ее границы. Помните пример с питанием животного? Ес- ли генеральная совокупность — это животные данного вида, содержа- щиеся в зоопарках, нет смысла добавлять к исследованию данные о питании этих животных в домашних условиях. Если же такие данные просто необходимо добавить (например, потому что данных из зоопар- ков очень мало), то тогда генеральная совокупность будет называться «множество животных данного вида, содержащихся в неволе». Интересный вариант рандомизации используют, когда в экспери- менте исследуются одновременно несколько взаимодействий. Напри- мер, мы хотим выяснить эффективность разных типов средств против обледенения тротуаров. Для этого логично выбрать (случайным обра- зом) несколько разных (по возрасту застройки, плотности населения, расположению) участков города и внутри каждого участка случайным образом распределить разные типы этих средств. Потом можно, напри- мер, фиксировать (в баллах или как-нибудь еще) состояние тротуаров Что ищут в данных 17 каждый день после нанесения средства, можно также повторить опыт при разной погоде. Такой подход называется «блочный дизайн». Бло- ками здесь являются разные участки города, а повторность обеспечи- вается тем, что в каждом блоке повторяются одни и те же воздействия. При этом даже не обязательно повторять однотипные воздействия по нескольку раз внутри блоков, важно выбрать побольше отличающих- ся друг от друга блоков. Можно считать разными блоками и разные погодные условия, и тогда у нас получится «вложенный блочный ди- зайн»: в каждый погодный блок войдет несколько «городских» блоков, и уже внутри этих блоков будут повторены все возможные воздействия (типы средств). В области рандомизации лежит еще одно коренное различие между наблюдением и экспериментом. Допустим, мы изучаем эффективность действия какого-то лекарства. Вместо того, чтобы подбирать две груп- пы больных, использовать плацебо и т. п., можно просто порыться в архивах и подобрать соответствующие примеры (30 случаев примене- ния лекарства и 30 случаев неприменения), а затем проанализировать разницу между группами (например, число смертей в первый год после окончания лечения). Однако такой подход сопряжен с опасностью того, что на наши выводы окажет влияние какой-то (или какие-то) неучтен- ный фактор, выяснить наличие которого из архивов невозможно. Мы просто не можем гарантировать, что соблюдали рандомизацию, анали- зируя архивные данные. К примеру, первая группа (случайно!) окажет- ся состоящей почти целиком из пожилых людей, а вторая — из людей среднего возраста. Ясно, что это окажет воздействие на выводы. Поэто- му в общем случае эксперимент всегда предпочтительней наблюдения. 1.4. Что ищут в данных Прочитав предыдущие разделы, читатель, наверное, уже не раз за- давался вопросом: «Если так все сложно, зачем он вообще, этот анализ данных? Неужели и так не видно, что в один магазин ходит больше народу, одно лекарство лучше другого и т. п.?» В общем, так бывает видно довольно часто, но обычно тогда, когда либо (1) данных и/или исследуемых факторов очень мало, либо (2) разница между ними очень резка. В этих случаях действительно запускать всю громоздкую маши- ну анализа данных не ст 0 оит. Однако гораздо чаще встречаются случаи, когда названные выше условия не выполняются. Давно, например, до- казано, что средний человек может одновременно удержать в памяти лишь 5–9 объектов. Стало быть, анализировать в уме данные, которые насчитывают больше 10 компонентов, уже нельзя. А значит, не обой- 18 Что такое данные и зачем их обрабатывать? тись без каких-нибудь, пусть и самых примитивных (типа вычисления процентов и средних величин), методов анализа данных. Бывает и так, что внешне очевидные результаты не имеют под собой настоящего основания. Вот, например, одно из исследований насекомых- вредителей. Агрономы определяли, насколько сильно вредят кукурузе гусеницы кукурузного мотылька. Получились вполне приемлемые ре- зультаты: разница в урожае между пораженными и непораженными растениями почти вдвое. Казалось, что и обрабатывать ничего не на- до — «и так все ясно». Однако нашелся вдумчивый исследователь, ко- торый заметил, что пораженные растения, различающиеся по степени поражения, не различаются по урожайности. Здесь, очевидно, что-то не так: если гусеницы вредят растению, то чем сильнее они вредят, тем меньше должен быть урожай. Стало быть, на какой-то стадии исследо- вания произошла ошибка. Скорее всего, дело было так: для того чтобы измерять урожайность, среди здоровых растений отбирали самые здо- ровые (во всех смыслах этого слова), ну а среди больных старались подобрать самые хилые. Вот эта ошибка репрезентативности и привела к тому, что возникли такие «хорошие» результаты. Обратите внима- ние, что только анализ взаимосвязи «поражение—урожай» (на языке анализа данных он называется «регрессионный анализ», см. главу про двумерные данные) привел к выяснению истинной причины. А куку- рузный мотылек, оказывается, почти и не вредит кукурузе... Итак, анализ данных необходим всегда, когда результат неочевиден, и часто даже тогда, когда он кажется очевидным. Теперь разберемся, к каким последствиям может привести анализ, что он умеет. 1. Во-первых, анализ данных умеет давать общие характеристики для больших выборок. Эти характеристики могут отражать так называемую центральную тенденцию, то есть число (или ряд чи- сел), вокруг которых, как пули вокруг десятки в мишени, «раз- бросаны» данные. Всем известно, как считать среднее значение, но существует еще немало полезных характеристик «на ту же те- му». Другая характеристика — это разброс, который отражает не вокруг чего «разбросаны» данные, а насколько сильно они разбро- саны. 2. Во-вторых, можно проводить сравнения между разными выбор- ками. Например, можно выяснить, в какой из групп больных ин- фарктом миокарда частота смертей в первый год после лечения выше — у тех, к кому применяли коронарное шунтирование, или у тех, к кому применяли только медикаментозные способы лечения. «На взгляд» этой разницы может и не быть, а если она и есть, то где гарантия того, что эти различия не вызваны случайными при- Что ищут в данных 19 чинами, не имеющими отношения к лечению? Скажем, заболел человек острым аппендицитом и умер после операции: к лечению инфаркта это может не иметь никакого отношения. Сравнение данных при помощи статистических тестов позволяет выяс- нить, насколько велика вероятность, что различия между груп- пами вызваны случайными причинами. Заметьте, что гарантий анализ данных тоже не дает, зато позволяет оценить (численным образом) шансы. Анализ данных позволяет оценить и упомянутые выше общие характеристики. 3. Третий тип результата, который можно получить, анализируя дан- ные,— это сведения о взаимосвязях. Изучение взаимосвязей — на- верное, самый серьезный и самый развитый раздел анализа дан- ных. Существует множество методик выяснения и, главное, про- верки «качества» связей. В дальнейшем нам понадобятся сведе- ния о том, какие бывают взаимосвязи. Есть так называемые соот- ветствия , например когда два явления чаще встречаются вместе, нежели по отдельности (как гром и молния). Соответствия нетруд- но найти, но силу их измерить трудно. Следующий тип взаимо- связей — это корреляции. Корреляции показывают силу взаимо- связи, но не могут определить ее направления. Другими словами, если выяснилась корреляция между качанием деревьев и ветром, то нельзя решить, дует ли ветер оттого, что деревья качаются, или наоборот. Наконец, есть зависимости, для которых можно измерить и силу, и направление, и оценить, насколько вероят- но то, что они — результат случайных причин. Кстати говоря, последнее можно, как водится в анализе данных, сделать и для корреляций, и даже для соответствий. Еще одно свойство зависи- мостей состоит в том, что можно предсказать, как будет «вести» себя зависимая переменная в каких-нибудь до сих пор не опро- бованных условиях. Например, можно прогнозировать колебания спроса, устойчивость балок при землетрясении, интенсивность по- ступления больных и т. п. 4. И наконец, анализ данных можно использовать для установле- ния структуры. Это самый сложный тип анализа, поскольку для выяснения структуры обычно используются сразу несколько ха- рактеристик . Есть и специальное название для такой работы — «многомерная статистика». Самое главное, на что способен мно- гомерный анализ,— это создание и проверка качества классифи- кации объектов. В умелых руках хорошая классификация очень полезна. Вот, например, мебельной фабрике потребовалось выяс- нить, какую мебель как лучше перевозить: в разобранном или в собранном виде. Рекомендации по перевозке зависят от уймы |