Главная страница
Навигация по странице:

  • Савельев Владимир Статистика и котики © Савельев Владимир, текст© ООО «Издательство АСТ»* * *

  • От партнера издания

  • Глава 1. Как выглядят котики или Основы описательной статистики

  • НЕМАЛОВАЖНО ЗНАТЬ! Выборка, генеральная

  • Глава 2. Картинки с котиками или Средства визуализации данных

  • Конец ознакомительного фрагмента.

  • Звезда Рунета. Бизнес Владимир Савельев Статистика и котики Издательство аст 2017 удк 61 ббк 5


    Скачать 0.77 Mb.
    НазваниеЗвезда Рунета. Бизнес Владимир Савельев Статистика и котики Издательство аст 2017 удк 61 ббк 5
    Дата11.01.2023
    Размер0.77 Mb.
    Формат файлаpdf
    Имя файла85088710.a4.pdf
    ТипДокументы
    #882013

    Звезда Рунета. Бизнес
    Владимир Савельев
    Статистика и котики
    «Издательство АСТ»
    2017

    УДК 61
    ББК 5
    Савельев В.
    Статистика и котики / В. Савельев — «Издательство АСТ»,
    2017 — (Звезда Рунета. Бизнес)
    ISBN 978-5-17-106143-2
    Из этой книги вы узнаете, что такое дисперсия и стандартное отклонение,
    как найти t-критерий Стьюдента и U-критерий Манна-Уитни, для чего используются регрессионный и факторный анализы, а также многое и многое другое.И все это – на простых и понятных примерах из жизни милых и пушистых котиков, которые дарят нам множество приятных эмоций.
    УДК 61
    ББК 5
    ISBN 978-5-17-106143-2
    © Савельев В., 2017
    © Издательство АСТ, 2017

    В. Савельев. «Статистика и котики»
    4
    Содержание
    Предисловие. От автора
    6
    От партнера издания
    7
    Глава 1. Как выглядят котики или Основы описательной статистики
    8
    Глава 2. Картинки с котиками или Средства визуализации данных
    18
    Конец ознакомительного фрагмента.
    24

    В. Савельев. «Статистика и котики»
    5
    Савельев Владимир
    Статистика и котики
    © Савельев Владимир, текст
    © ООО «Издательство АСТ»
    * * *

    В. Савельев. «Статистика и котики»
    6
    Предисловие. От автора
    Мало кто любит статистику.
    Одни считают эту науку сухой и безжизненной. Другие боятся и избегают ее. Третьи полагают, что она бесполезна. Но у меня другое мнение на этот счет.
    На мой взгляд, статистика обладает своей особой внутренней красотой. Ее можно уви- деть, вглядываясь в корреляционную матрицу, рассматривая дендрограммы или интерпрети- руя результаты факторного анализа. За каждым статистическим коэффициентом стоит малень- кое чудо, раскрывающее скрытые закономерности окружающего нас мира.
    Но чтобы найти эту красоту, чтобы услышать поэзию, которая пронизывает статистику насквозь, необходимо преодолеть первоначальный страх и недоверие, вызванное внешней сложностью этого предмета.
    Для того и написана эта книга. Чтобы показать, что статистика не такая страшная, как о ней думают. И что она вполне может быть такой же милой и пушистой, как котики, которые встретятся вам на страницах этой книги.

    В. Савельев. «Статистика и котики»
    7
    От партнера издания
    При слове «статистика» я вспоминаю британских ученых и выборы. Статистика – это многогранный инструмент. Иногда статистикой манипулируют, а можно открывать знания о реальном мире.
    Автор написал книгу о базовой статистике в забавном формате. Старая система образо- вания выдает порцию неинтересных и бесполезных знаний. А котики обучают, развлекая.
    Когда мы изучаем данные, мы осознаем, что задача – найти соломинку в стоге иголок.
    И понять, сколько ещё стогов и соломы найдем дальше. Статистика в бизнесе помогает нам экономить деньги и открывать новые рынки. Экономия питает амбиции и потихоньку делает жизнь людей чуточку лучше.
    Респект читателям. Респект автору.
    Юрий Корженевский,
    Центр Исследований и Разработки.
    www.rnd.center

    В. Савельев. «Статистика и котики»
    8
    Глава 1. Как выглядят котики или
    Основы описательной статистики
    Котики бывают разные. Есть большие котики, а есть маленькие. Есть котики с длинными хвостами, а есть и вовсе без хвостов. Есть котики с висячими ушками, а есть котики с корот- кими лапками. Как же нам понять, как выглядит типичный котик?
    Для простоты мы возьмем такое котиковое свойство, как размер.
    Первый и наиболее очевидный способ – посмотреть, какой размер котиков встречается чаще всего. Такой показатель называется модой.

    В. Савельев. «Статистика и котики»
    9
    Второй способ: мы можем упорядочить всех котиков от самого маленького до самого крупного, а затем посмотреть на середину этого ряда. Как правило, там находится котик, кото- рый обладает самым типичным размером. И этот размер называется медианой.
    Если же посередине находятся сразу два котика (что бывает, когда их четное количество),
    то, чтобы найти медиану, нужно сложить их размеры и поделить это число пополам.
    Последний способ нахождения наиболее типичного котика – это сложить размер всех котиков и поделить на их количество. Полученное число называется средним значением, и оно является очень популярным в современной статистике.

    В. Савельев. «Статистика и котики»
    10
    Однако, среднее арифметическое далеко не всегда является лучшим показателем типич- ности.
    Предположим, что среди наших котиков есть один уникум размером со слона. Его при- сутствие может существенным образом сдвинуть среднее значение в большую сторону, и оно перестанет отражать типичный котиковый размер.

    В. Савельев. «Статистика и котики»
    11
    Такой «слоновый» котик, так же как и котик размером с муравья, называется выбросом,
    и он может существенно исказить наши представления о котиках. И, к большому сожалению,
    многие статистические критерии, содержащие в своих формулах средние значения, также ста- новятся неадекватными в присутствии «слоновых» котиков.
    Чтобы избавиться от таких выбросов, иногда применяют следующий метод: убирают по
    5–10 % самых больших и самых маленьких котиков и уже от оставшихся считают среднее.
    Получившийся показатель называют усеченным (или урезанным) средним.
    Альтернативный вариант – применять вместо среднего медиану.
    Итак, мы рассмотрели основные методы нахождения типичного размера котиков: моду,
    медиану и средние значения. Все вместе они называются мерами центральной тенденции.
    Но, кроме типичности, нас довольно часто интересует, насколько разнообразными могут быть котики по размеру. И в этом нам помогают меры изменчивости.
    Первая из них – размах – является разностью между самым большим и самым маленьким котиком. Однако, как и среднее арифметическое, эта мера очень чувствительна к выбросам. И,
    чтобы избежать искажений, мы должны отсечь 25 % самых больших и 25 % самых маленьких котиков и найти размах для оставшихся. Эта мера называется межквартильным размахом.

    В. Савельев. «Статистика и котики»
    12
    Вторая и третья меры изменчивости называются дисперсией и стандартным отклоне-
    нием
    . Чтобы разобраться в том, как они устроены, предположим, что мы решили сравнить раз- мер некоторого конкретного котика (назовем его Барсиком) со средним котиковым размером.
    Разница (а точнее разность) этих размеров называется отклонением.
    И совершенно очевидно, что чем сильнее Барсик будет отличаться от среднего котика,
    тем больше будет это самое отклонение.
    Логично было бы предположить, что чем больше у нас будет котиков с сильным откло- нением, тем более разнообразными будут наши котики по размеру. И, чтобы понять, какое отклонение является для наших котиков наиболее типичным, мы можем просто найти сред- нее значение по этим отклонениям (т. е. сложить все отклонения и поделить их на количество котиков).

    В. Савельев. «Статистика и котики»
    13
    Однако если мы это сделаем, то получим 0. Это происходит, поскольку одни отклонения являются положительными (когда Барсик больше среднего), а другие – отрицательными (когда
    Барсик меньше среднего). Поэтому необходимо избавиться от знака. Сделать это можно двумя способами: либо взять модуль от отклонений, либо возвести их в квадрат, который, как мы помним, всегда положителен. Последнее применяется чаще.

    В. Савельев. «Статистика и котики»
    14
    И, если мы найдем среднее от квадратов отклонений, мы получим то, что называется
    дисперсией
    . Однако, к большому сожалению, квадрат в этой формуле делает дисперсию очень неудобной для оценки разнообразия котиков: если мы измеряли размер в сантиметрах, то дис- персия имеет размерность в квадратных сантиметрах. Поэтому для удобства использования дисперсию берут под корень, получая по итогу показатель, называемый среднеквадратическим
    отклонением

    В. Савельев. «Статистика и котики»
    15
    К несчастью, дисперсия и среднеквадратическое отклонение так же неустойчивы к выбросам, как и среднее арифметическое.
    Среднее значение и среднеквадратическое отклонение очень часто совместно использу- ются для описания той или иной группы котиков. Дело в том, что, как правило, большинство (а именно около 68 %) котиков находится в пределе одного среднеквадратического отклонения от среднего. Эти котики обладают так называемым нормальным размером. Оставшиеся 32 %
    либо очень большие, либо очень маленькие. В целом же для большинства котиковых призна- ков картина выглядит вот так:

    В. Савельев. «Статистика и котики»
    16
    Такой график называется нормальным распределением признака.
    Таким образом, зная всего два показателя, вы можете с достаточной долей уверенности сказать, как выглядит типичный котик, насколько разнообразными являются котики в целом и в каком диапазоне лежит норма по тому или иному признаку.
    НЕМАЛОВАЖНО ЗНАТЬ!
    Выборка, генеральная
    совокупность и два вида дисперсии
    Чаще всего нас, как исследователей, интересуют все котики без исключения. Статистики называют этих котиков генеральной совокупностью. Однако на практике мы не можем заме- рить всю генеральную совокупность – как правило, мы работаем только с небольшим количе- ством котиков, называемым выборкой.
    Очень важно, чтобы выборка была максимально похожа на генеральную совокупность.
    Степень такой похожести называется репрезентативностью.
    Необходимо запомнить, что существует две формулы дисперсии: одна для генеральной совокупности, другая – для выборки. В знаменателе первой всегда стоит точное количество котиков, а у второй – ровно на одного котика меньше.

    В. Савельев. «Статистика и котики»
    17
    Корень из дисперсии генеральной совокупности, как уже было сказано, называется сред-
    неквадратическим отклонением
    . А вот корень из дисперсии по выборке называется стандарт-
    ным отклонением
    Однако не будет большой ошибкой, если вы будете пользоваться терминами стандарт-
    ное отклонение генеральной совокупности
    и стандартное отклонение выборки. Чаще всего именно последнее и рассчитывается для реальных исследований.

    В. Савельев. «Статистика и котики»
    18
    Глава 2. Картинки с котиками или
    Средства визуализации данных
    В предыдущей главе мы говорили про показатели, которые помогают определить, какой размер является для котиков типичным и насколько он бывает разнообразным. Но когда нам требуется получить более полные и зрительно осязаемые представления о котиках, мы можем прибегнуть к так называемым средствам визуализации данных.
    Первая группа средств показывает, сколько котиков обладает тем или иным разме- ром. Для их использования необходимо предварительно построить так называемые таблицы
    частот.
    В этих таблицах есть два столбика: в первом указывается размер (или любое другое котиковое свойство), а во втором – количество котиков при данном размере.
    Это количество, кстати, и называется частотой. Эти частоты бывают абсолютными (в котиках) и относительными (в процентах).
    С таблицами частот можно делать много интересных вещей. Например, построить стол-
    биковую диаграмму.
    Для этого мы откладываем две перпендикулярных линии: горизонтальная будет обозначать размер, а вертикальная – частоту. А затем – рисуем столбики, высота которых будет соответствовать количеству котиков того или иного размера.

    В. Савельев. «Статистика и котики»
    19
    А еще мы можем вместо столбиков нарисовать точки и соединить их линиями. Результат называется полигоном распределения. Он довольно удобен, если котиковых размеров действи- тельно много.
    Наконец, мы можем построить круговую диаграмму. Величина каждого сектора такой диаграммы будет соответствовать проценту котиков определенного размера.

    В. Савельев. «Статистика и котики»
    20
    Следующая группа средств визуализации позволяет отобразить сразу два котиковых свойства. Например, размер и мохнатость. Как и в случае со столбиковыми диаграммами, пер- вым шагом рисуются оси. Только теперь каждая из осей отображает отдельное свойство. А
    после этого каждый котик занимает на этом графике свое место в зависимости от степени выраженности этих свойств. Так, большие и мохнатые котики занимают место ближе к пра- вому верхнему углу, а маленькие и лысые – в левом нижнем.

    В. Савельев. «Статистика и котики»
    21
    Поскольку обычно котики на данной диаграмме обозначаются точками, то она называ- ется точечной (или диаграммой рассеяния). Более продвинутый вариант – пузырьковая диа-
    грамма
    – позволяет отобразить сразу три котиковых свойства одновременно (размер, мохна- тость и вес). Это достигается за счет того, что сами точки на ней имеют разную величину,
    которая и обозначает третье свойство.

    В. Савельев. «Статистика и котики»
    22
    Последняя крупная группа средств визуализации позволяет графически изобразить меры центральной тенденции и меры изменчивости. В простейшем виде это точка на графике,
    обозначающая, где находится средний котик, и линии, длина которых указывает на величину стандартного отклонения.

    В. Савельев. «Статистика и котики»
    23
    Более известным средством является так называемый боксплот

    В. Савельев. «Статистика и котики»
    24
    Конец ознакомительного фрагмента.
    Текст предоставлен ООО «ЛитРес».
    Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.
    Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal,
    WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам спо- собом.


    написать администратору сайта