Звезда Рунета. Бизнес Владимир Савельев Статистика и котики Издательство аст 2017 удк 61 ббк 5
Скачать 0.77 Mb.
|
Звезда Рунета. Бизнес Владимир Савельев Статистика и котики «Издательство АСТ» 2017 УДК 61 ББК 5 Савельев В. Статистика и котики / В. Савельев — «Издательство АСТ», 2017 — (Звезда Рунета. Бизнес) ISBN 978-5-17-106143-2 Из этой книги вы узнаете, что такое дисперсия и стандартное отклонение, как найти t-критерий Стьюдента и U-критерий Манна-Уитни, для чего используются регрессионный и факторный анализы, а также многое и многое другое.И все это – на простых и понятных примерах из жизни милых и пушистых котиков, которые дарят нам множество приятных эмоций. УДК 61 ББК 5 ISBN 978-5-17-106143-2 © Савельев В., 2017 © Издательство АСТ, 2017 В. Савельев. «Статистика и котики» 4 Содержание Предисловие. От автора 6 От партнера издания 7 Глава 1. Как выглядят котики или Основы описательной статистики 8 Глава 2. Картинки с котиками или Средства визуализации данных 18 Конец ознакомительного фрагмента. 24 В. Савельев. «Статистика и котики» 5 Савельев Владимир Статистика и котики © Савельев Владимир, текст © ООО «Издательство АСТ» * * * В. Савельев. «Статистика и котики» 6 Предисловие. От автора Мало кто любит статистику. Одни считают эту науку сухой и безжизненной. Другие боятся и избегают ее. Третьи полагают, что она бесполезна. Но у меня другое мнение на этот счет. На мой взгляд, статистика обладает своей особой внутренней красотой. Ее можно уви- деть, вглядываясь в корреляционную матрицу, рассматривая дендрограммы или интерпрети- руя результаты факторного анализа. За каждым статистическим коэффициентом стоит малень- кое чудо, раскрывающее скрытые закономерности окружающего нас мира. Но чтобы найти эту красоту, чтобы услышать поэзию, которая пронизывает статистику насквозь, необходимо преодолеть первоначальный страх и недоверие, вызванное внешней сложностью этого предмета. Для того и написана эта книга. Чтобы показать, что статистика не такая страшная, как о ней думают. И что она вполне может быть такой же милой и пушистой, как котики, которые встретятся вам на страницах этой книги. В. Савельев. «Статистика и котики» 7 От партнера издания При слове «статистика» я вспоминаю британских ученых и выборы. Статистика – это многогранный инструмент. Иногда статистикой манипулируют, а можно открывать знания о реальном мире. Автор написал книгу о базовой статистике в забавном формате. Старая система образо- вания выдает порцию неинтересных и бесполезных знаний. А котики обучают, развлекая. Когда мы изучаем данные, мы осознаем, что задача – найти соломинку в стоге иголок. И понять, сколько ещё стогов и соломы найдем дальше. Статистика в бизнесе помогает нам экономить деньги и открывать новые рынки. Экономия питает амбиции и потихоньку делает жизнь людей чуточку лучше. Респект читателям. Респект автору. Юрий Корженевский, Центр Исследований и Разработки. www.rnd.center В. Савельев. «Статистика и котики» 8 Глава 1. Как выглядят котики или Основы описательной статистики Котики бывают разные. Есть большие котики, а есть маленькие. Есть котики с длинными хвостами, а есть и вовсе без хвостов. Есть котики с висячими ушками, а есть котики с корот- кими лапками. Как же нам понять, как выглядит типичный котик? Для простоты мы возьмем такое котиковое свойство, как размер. Первый и наиболее очевидный способ – посмотреть, какой размер котиков встречается чаще всего. Такой показатель называется модой. В. Савельев. «Статистика и котики» 9 Второй способ: мы можем упорядочить всех котиков от самого маленького до самого крупного, а затем посмотреть на середину этого ряда. Как правило, там находится котик, кото- рый обладает самым типичным размером. И этот размер называется медианой. Если же посередине находятся сразу два котика (что бывает, когда их четное количество), то, чтобы найти медиану, нужно сложить их размеры и поделить это число пополам. Последний способ нахождения наиболее типичного котика – это сложить размер всех котиков и поделить на их количество. Полученное число называется средним значением, и оно является очень популярным в современной статистике. В. Савельев. «Статистика и котики» 10 Однако, среднее арифметическое далеко не всегда является лучшим показателем типич- ности. Предположим, что среди наших котиков есть один уникум размером со слона. Его при- сутствие может существенным образом сдвинуть среднее значение в большую сторону, и оно перестанет отражать типичный котиковый размер. В. Савельев. «Статистика и котики» 11 Такой «слоновый» котик, так же как и котик размером с муравья, называется выбросом, и он может существенно исказить наши представления о котиках. И, к большому сожалению, многие статистические критерии, содержащие в своих формулах средние значения, также ста- новятся неадекватными в присутствии «слоновых» котиков. Чтобы избавиться от таких выбросов, иногда применяют следующий метод: убирают по 5–10 % самых больших и самых маленьких котиков и уже от оставшихся считают среднее. Получившийся показатель называют усеченным (или урезанным) средним. Альтернативный вариант – применять вместо среднего медиану. Итак, мы рассмотрели основные методы нахождения типичного размера котиков: моду, медиану и средние значения. Все вместе они называются мерами центральной тенденции. Но, кроме типичности, нас довольно часто интересует, насколько разнообразными могут быть котики по размеру. И в этом нам помогают меры изменчивости. Первая из них – размах – является разностью между самым большим и самым маленьким котиком. Однако, как и среднее арифметическое, эта мера очень чувствительна к выбросам. И, чтобы избежать искажений, мы должны отсечь 25 % самых больших и 25 % самых маленьких котиков и найти размах для оставшихся. Эта мера называется межквартильным размахом. В. Савельев. «Статистика и котики» 12 Вторая и третья меры изменчивости называются дисперсией и стандартным отклоне- нием . Чтобы разобраться в том, как они устроены, предположим, что мы решили сравнить раз- мер некоторого конкретного котика (назовем его Барсиком) со средним котиковым размером. Разница (а точнее разность) этих размеров называется отклонением. И совершенно очевидно, что чем сильнее Барсик будет отличаться от среднего котика, тем больше будет это самое отклонение. Логично было бы предположить, что чем больше у нас будет котиков с сильным откло- нением, тем более разнообразными будут наши котики по размеру. И, чтобы понять, какое отклонение является для наших котиков наиболее типичным, мы можем просто найти сред- нее значение по этим отклонениям (т. е. сложить все отклонения и поделить их на количество котиков). В. Савельев. «Статистика и котики» 13 Однако если мы это сделаем, то получим 0. Это происходит, поскольку одни отклонения являются положительными (когда Барсик больше среднего), а другие – отрицательными (когда Барсик меньше среднего). Поэтому необходимо избавиться от знака. Сделать это можно двумя способами: либо взять модуль от отклонений, либо возвести их в квадрат, который, как мы помним, всегда положителен. Последнее применяется чаще. В. Савельев. «Статистика и котики» 14 И, если мы найдем среднее от квадратов отклонений, мы получим то, что называется дисперсией . Однако, к большому сожалению, квадрат в этой формуле делает дисперсию очень неудобной для оценки разнообразия котиков: если мы измеряли размер в сантиметрах, то дис- персия имеет размерность в квадратных сантиметрах. Поэтому для удобства использования дисперсию берут под корень, получая по итогу показатель, называемый среднеквадратическим отклонением В. Савельев. «Статистика и котики» 15 К несчастью, дисперсия и среднеквадратическое отклонение так же неустойчивы к выбросам, как и среднее арифметическое. Среднее значение и среднеквадратическое отклонение очень часто совместно использу- ются для описания той или иной группы котиков. Дело в том, что, как правило, большинство (а именно около 68 %) котиков находится в пределе одного среднеквадратического отклонения от среднего. Эти котики обладают так называемым нормальным размером. Оставшиеся 32 % либо очень большие, либо очень маленькие. В целом же для большинства котиковых призна- ков картина выглядит вот так: В. Савельев. «Статистика и котики» 16 Такой график называется нормальным распределением признака. Таким образом, зная всего два показателя, вы можете с достаточной долей уверенности сказать, как выглядит типичный котик, насколько разнообразными являются котики в целом и в каком диапазоне лежит норма по тому или иному признаку. НЕМАЛОВАЖНО ЗНАТЬ! Выборка, генеральная совокупность и два вида дисперсии Чаще всего нас, как исследователей, интересуют все котики без исключения. Статистики называют этих котиков генеральной совокупностью. Однако на практике мы не можем заме- рить всю генеральную совокупность – как правило, мы работаем только с небольшим количе- ством котиков, называемым выборкой. Очень важно, чтобы выборка была максимально похожа на генеральную совокупность. Степень такой похожести называется репрезентативностью. Необходимо запомнить, что существует две формулы дисперсии: одна для генеральной совокупности, другая – для выборки. В знаменателе первой всегда стоит точное количество котиков, а у второй – ровно на одного котика меньше. В. Савельев. «Статистика и котики» 17 Корень из дисперсии генеральной совокупности, как уже было сказано, называется сред- неквадратическим отклонением . А вот корень из дисперсии по выборке называется стандарт- ным отклонением Однако не будет большой ошибкой, если вы будете пользоваться терминами стандарт- ное отклонение генеральной совокупности и стандартное отклонение выборки. Чаще всего именно последнее и рассчитывается для реальных исследований. В. Савельев. «Статистика и котики» 18 Глава 2. Картинки с котиками или Средства визуализации данных В предыдущей главе мы говорили про показатели, которые помогают определить, какой размер является для котиков типичным и насколько он бывает разнообразным. Но когда нам требуется получить более полные и зрительно осязаемые представления о котиках, мы можем прибегнуть к так называемым средствам визуализации данных. Первая группа средств показывает, сколько котиков обладает тем или иным разме- ром. Для их использования необходимо предварительно построить так называемые таблицы частот. В этих таблицах есть два столбика: в первом указывается размер (или любое другое котиковое свойство), а во втором – количество котиков при данном размере. Это количество, кстати, и называется частотой. Эти частоты бывают абсолютными (в котиках) и относительными (в процентах). С таблицами частот можно делать много интересных вещей. Например, построить стол- биковую диаграмму. Для этого мы откладываем две перпендикулярных линии: горизонтальная будет обозначать размер, а вертикальная – частоту. А затем – рисуем столбики, высота которых будет соответствовать количеству котиков того или иного размера. В. Савельев. «Статистика и котики» 19 А еще мы можем вместо столбиков нарисовать точки и соединить их линиями. Результат называется полигоном распределения. Он довольно удобен, если котиковых размеров действи- тельно много. Наконец, мы можем построить круговую диаграмму. Величина каждого сектора такой диаграммы будет соответствовать проценту котиков определенного размера. В. Савельев. «Статистика и котики» 20 Следующая группа средств визуализации позволяет отобразить сразу два котиковых свойства. Например, размер и мохнатость. Как и в случае со столбиковыми диаграммами, пер- вым шагом рисуются оси. Только теперь каждая из осей отображает отдельное свойство. А после этого каждый котик занимает на этом графике свое место в зависимости от степени выраженности этих свойств. Так, большие и мохнатые котики занимают место ближе к пра- вому верхнему углу, а маленькие и лысые – в левом нижнем. В. Савельев. «Статистика и котики» 21 Поскольку обычно котики на данной диаграмме обозначаются точками, то она называ- ется точечной (или диаграммой рассеяния). Более продвинутый вариант – пузырьковая диа- грамма – позволяет отобразить сразу три котиковых свойства одновременно (размер, мохна- тость и вес). Это достигается за счет того, что сами точки на ней имеют разную величину, которая и обозначает третье свойство. В. Савельев. «Статистика и котики» 22 Последняя крупная группа средств визуализации позволяет графически изобразить меры центральной тенденции и меры изменчивости. В простейшем виде это точка на графике, обозначающая, где находится средний котик, и линии, длина которых указывает на величину стандартного отклонения. В. Савельев. «Статистика и котики» 23 Более известным средством является так называемый боксплот В. Савельев. «Статистика и котики» 24 Конец ознакомительного фрагмента. Текст предоставлен ООО «ЛитРес». Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес. Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам спо- собом. |