Сколько строк? order() Сортировать plot() График points() Дополнение к графику: точки predict() Предсказать значения q() Выйти из R qqnorm(); qqline() Проверка на нормальность распределения rbind() Соединить в матрицу по строкам read.table() Чтение файла данных
286 Краткий словарь языка R rep() Создать последовательность одинаковых элементов sample() Выбрать случайным образом savehistory() Сохранить историю команд scale() Нормировать переменные sd() Стандартное отклонение source() Загрузить скрипт str() Структура переменной summary() Главные описательные статистики (сводная статистика) t() Повернуть (транспонировать) таблицу t.test() Тест Стьюдента table() Кросс-табуляция tapply() Применить функцию и кросс-табуляцию к объекту text() Дополнение к графику: нанести на график текст wilcox.test() Тест Вилкоксона или Манна-Уитни write.table() Записать таблицу данных на диск Приложение Е Краткий словарь терминов Этот очень краткий словарь поможет найти для самых распростра- ненных терминов и понятий статистики английский эквивалент, соот- ветствующую команду R и краткое пояснение. Его можно использовать как своего рода обратный словарь команд, который может оказаться полезным тогда, когда известно, что нужно делать, но неизвестно, ка- кую команду R использовать. p-значение – p-value – вероятность получить оцениваемую характери- стику при условии, что нулевая гипотеза верна; если это значение ниже определенного порога, то нулевую гипотезу надо отвергнуть (о статистических гипотезах рассказано в главе о двумерных дан- ных). Автокорреляция – autocorrelation – acf() – корреляция между после- довательными значениями временного ряда. Авторегрессия интегрированного скользящего среднего – Autoregressive Integrated Moving Average, ARIMA – arima() – метод построения модели временного ряда для составления прогноза. Анализ главных компонент – principal component analisys – princomp(), prcomp() – метод многомерного анализа, «проецирующий» много- мерное облако на плоскость компонент. Биномиальный тест – binomial test – binom.test() – позволяет прове- рить, различаются ли пропорции. График-гистограмма – histogram – hist() – диаграмма для отображе- ния частоты встречаемости значений в выборке. График-коррелограмма, диаграмма рассеяния – scatterplot – plot(x,y) – график, показывающий соотношение двух признаков в выборке. График нормального распределения – normal distribution graph – plot(density(rnorm(1000000))) – «колокол», «шляпа» (рис. 72). График сравнения квантилей – quantile comparison plot – qqplot() – график, показывающий соотношение квантилей в двух выборках 288 Краткий словарь терминов −4 −2 0 2 4 0. 0 0. 1 0. 2 0. 3 0. 4 Рис. 72. График нормального распределения (используется, например, при сравнении выборочного распределе- ния с нормальным). График «стебель-с-листьями», текстовая гистограмма – stem-anf-leaf plot – stem() – псевдографик, показывающий частоту встречае- мости значений в выборке. График «ящик-с-усами», боксплот – boxplot – boxplot() – диаграмма для отображения основных характеристик одной или нескольких выборок. Дисперсионный анализ – analysis of variance, ANOVA – anova() – се- мейство параметрических тестов, которые используются для срав- нения нескольких выборок. Дисперсия – variance – var() – усредненная разница между средним значением и всеми остальными значениями выборки.
Краткий словарь терминов 289 Доверительный интервал – confidence interval – промежуток, в котором может находиться значение какого-нибудь параметра (средней, ме- дианы и т. п.). Информационный критерий Акаике – Akaike’s Information Criterion, AIC – AIC() – критерий, оценивающий оптимальность модели; наи- более оптимальная модель обычно соответствует минимальному AIC. Квантиль – quantile – quantile() – возвращает значения квантилей (по умолчанию 0, 25, 50,75 и 100%) для выборки. Кластерный анализ – cluster analisys – hclust() – метод визуализации сходства/различия объектов в выборке в виде дерева (дендрограм- мы). Корреляционная матрица – correlation matrix – cor() – возвращает ко- эффициенты корреляции для всех пар выборок. Корреляционный анализ – correlation analysis – cor.test() – группа ме- тодов, служащих для определения силы соответствия между двумя выборками. Линейный дискриминантный анализ – linear discriminant analysis – lda() – метод многомерного анализа, позволяет создать классификацию на основе тренировочной выборки. Линейный регрессионный анализ – linear regression – lm() – исследует характер линейной связи между объектами. Матрица различий, Матрица расстояний (например, в кластерном ана- лизе, в многомерном шкалировании) – distance matrix – dist(), daisy() , vegdist() – вычисляет расстояние (различие) между объ- ектами по набору признаков по заданному алгоритму. Медиана – median – median() – значение, отсекающее половину упоря- доченной выборки. Межквартильный разброс – interquartile range – IQR() – расстояние между вторым и четвертым квартилями, устойчивый (робастный) метод измерения разброса данных. Многомерное шкалирование, анализ главных координат – multidimen- sional scaling, MDS – cmdscale() – строит подобие географической карты на основе матрицы расстояний. Непараметрический – non-parametric – не связанный предположениями о типе распределения, пригодный для анализа произвольно распре- деленных данных. 290 Краткий словарь терминов Нормальное распределение – normal distribution – rnorm() – главное распределение статистики, возникает, например, если долго стре- лять в мишень, а потом подсчитать все расстояния до «десятки», основа параметрических методов. Параметрический – parametric – соответствующий нормальному рас- пределению, пригодный для анализа нормального распределенных данных. Распределение – distribution – «внешний вид» данных; теоретическое распределение указывает, как должны выглядеть данные; распре- деление выборки — как данные выглядят на самом деле. Среднее арифметическое – arithmetic mean, mean, average – mean() – сумма всех значений выборки, деленная на ее объем. Стандартная ошибка – standard error, SE – sd(x)/sqrt(length(x)) – стандартное отклонение, нормализованное по объему выборки. Стандартное отклонение, среднеквадратическое отклонение – standard deviation – sd() – корень квадратный из дисперсии. Столбчатая диаграмма – bar plot – barplot() – диаграмма для отобра- жения нескольких числовых значений (например, подсчетов). Тест (критерий) Вилкоксона (Уилкоксона) – Wilcoxon test – wilcox. test() – используется для сравнения медиан одной или двух вы- борок, непараметрический аналог t-теста. Тест (критерий) Колмогорова-Смирнова – Kolmogorov-Smirnov test – ks.test() – используется для сравнения двух распределений, в том числе сравнения распределения выборки с нормальным. Тест (критерий) Краскала-Уоллиса – Kruskal-Wallis test – kruskal.te- st() – используется для сравнения нескольких выборок, непара- метрический аналог дисперсионного анализа. Тест (критерий) Манна-Уитни – Mann-Whitney test – wilcox.test() – см. тест (критерий) Уилкоксона. Тест (критерий) Стьюдента, t-тест – t-test – t.test() – семейство пара- метрических тестов, которые используются для сравнения средних одной или двух выборок. Тест (критерий) Фишера, F-тест – F-test – var.test() – параметриче- ский тест, который используется для сравнения дисперсий в двух выборках. Тест (критерий) хи-квадрат, критерий согласия, тест Пирсона – Chi- squared test – chisq.test() – проверяет, есть ли соответствие меж- ду строками и столбцами в таблице сопряженности. Краткий словарь терминов 291 Тест (критерий) Шапиро-Уилкса – Shapiro-Wilk test – shapiro.test() – тест для проверки гипотезы о нормальности распределения выбор- ки. Тест пропорций – proportional test – prop.test() – проверяет, в част- ности, одинаковы ли пропорции. Типы данных – data types – различные типы данных, которые исполь- зуют в статистическом анализе: Интервальные – measurement: Непрерывные – continuous; Дискретные – meristic, discrete, discontinuous; Шкальные – ranked, ordered; Номинальные – categorical, nominal. Формулы моделей – model formulae – formula() – способ краткого опи- сания модели для статистического анализа: отклик воздействие : формула анализа регрессии; отклик воздействие1 + воздействие2 : формула множественной регрессии; отклик фактор : формула однофакторного дисперсионного ана- лиза; отклик фактор1 + фактор2 : формула многофакторного диспер- сионного анализа; отклик воздействие * фактор : формула анализа ковариаций, рас- крывается в формулу «отклик воздействие + фактор + воздействие : фактор ». Знаки, используемые в формулах моделей: все возможные факторы и воздействия (предикторы моде- ли); + добавляет фактор или воздействие; - убирает фактор или воздействие; : взаимодействие; 292 Краткий словарь терминов * все логически возможные комбинации факторов и воздей- ствий; / вложение, «фактор1 / фактор2» значит, что фактор2 вложен в фактор1 (скажем, улица «вложена» в округ, округ в город); | условие, «фактор1 | фактор2» значит «разбить фактор1 по уровням фактор2»; I() вернуть всему, что в скобках, обычный арифметический смысл.
Литература К сожалению, русскоязычных книг по статистике, где статистиче- ские проблемы освещались бы простым языком, довольно мало. Наде- емся, что наш труд поможет в какой-то мере исправить ситуацию. Волкова П. А., Шипунов А. Б. Статистическая обработка данных в учеб- но-исследовательских работах. — М.: Форум, 2012. — 96 с. Гланц С. Медико-биологическая статистика. — М.: Практика, 1998. — 459 с. Кендэл М. Временные ряды. — М.: Финансы и статистика, 1981. — 191 с. Кимбл Г. Как правильно пользоваться статистикой. — М.: Финансы и статистика, 1982. — 294 с. Любищев А. А. Дисперсионный анализ в биологии. — М.: Изд-во Моск. ун-та, 1986. — 200 с. Плавинский С. Л. Введение в биостатистику для медиков. — М.: Аква- рель, 2011. — 584 с. Петри А., Сэбин К. Наглядная статистика в медицине. — М.: Гэотар- Мед, 2002. — 144 с. Тьюки Дж. Анализ результатов наблюдений. Разведочный анализ. — М.: Мир, 1981. — 695 с. Тюрин Ю. Н., Макаров А. Л. Анализ данных на компьютере. — М.: ИНФРА-М, 1995. — 284 с. Факторный, дискриминантный и кластерный анализ. — М.: Финансы и статистика, 1989. — 215 с. Cleveland W. S. The elements of graphing data. — USA: Wandsworth Ad- vanced Books and Software, 1985. — 323 p. Crawley M. R Book. — England: John Whiley & Sons, 2007. — 942 p. Dalgaard P. Introductory statistics with R. 2 ed. — USA: Springer Science Business Media, 2008. — 363 p. Gordon A. D. Classification. — USA: Chapman & Hall/CRC, 1999. — 256 p. Marriott F. H. C. The interpretation of multiple observations. — USA, Eng- land: Academic Press, 1974. — 117 p. 294 Литература McKillup S. Statistics explained. An introductory guide for life scientists. — England: Cambridge University Press, 2005. — 267 p. R Development Core Team. R: A language and environment for statistical computing. — R Foundation for Statistical Computing, Vienna, Aus- tria. Rowntree D. Statistics without tears. — England: Clays, 2000. — 195 p. Sokal R. R., Rolf F. J. Biometry. The principles and practice of statistics in biological research. — USA: W.H. Freeman and Company, 1995. — 887 p. van Emden H. Statistics for terrified biologists. — USA: Blackwell Publish- ing, 2008. — 343 p. Venables W. N., Ripley B. D. Modern applied statistics with S. 4th ed. — USA: Springer, 2002. — 495 p.
Предметный указатель $, 229, 230, 257, 284 ACF, 182 add=, 267 aggregate(), 237 AIC, 127, 185 ANCOVA, 122 ANOVA, 128, 131 anova(), 129, 284 apply(), 75, 202, 284 args(), 235 ARIMA, 189 as.character(), 54, 56, 284 as.numeric(), 56, 284 axes=, 267 boxplot(), 102, 284 c(), 30, 256, 284 cbind(), 65, 244, 256, 284 chisq.test(), 105, 284 circular statistics, 47 colSums(), 83, 284 cor(), 111–114, 284 cor.test(), 114, 208, 284 correspondence analysis, 164 CRAN, 27, 38 data mining, 144 data.frame(), 68–70, 226, 232, 284 dev.list(), 280 dev.next(), 280 dev.off(), 281 dev.print(), 281 do.call(), 244 dotchart(), 58, 266, 284 example(), 253, 271, 285 file.show(), 33, 285 function(), 236, 285 function, 233 GUI, 209 head(), 199, 285 help(), 30, 252–253, 271, 285 help.start(), 282 hist(), 43, 78, 203, 266, 285 identify(), 272 if, 236 ifelse(), 242 install.packages(), 281 lattice, 146 legend(), 205, 269–270, 275, 285 length(), 285 library(), 281 lines(), 269, 275, 285 literate programming, 193 lm(), 117, 129, 285 locator(), 271 LOESS, 124, 183 log(), 241, 267, 285 log10(), 37 mai=, 277 main=, 268 MANOVA, 167 mar=, 278 max(), 201, 285 median, 201 median(), 73, 285 merge(), 237
296 Предметный указатель mfcol=, 278 mfg=, 278 mfrow=, 278 min(), 201, 285 MiniTab, 23, 35 MySQL, 36 NA, 60–61, 84, 223, 228, 229, 236, 285 names(), 67, 228, 285 nrow(), 285 ODF, 197 order(), 70, 71, 206, 237, 285 par(), 272 pch=, 274 PDF, 42 plot(), 52, 264–265, 270, 285 points(), 269, 285 PostgresSQL, 36 PostScript, 42 predict(), 140, 153, 285 q(), 29, 285 qqline(), 87, 203, 266, 285 qqnorm(), 87, 203, 266, 285 rbind(), 65, 256, 285 read.table(), 32–35, 56, 177, 285 readline, 254 Recall(), 234 recover(), 246 rep(), 31, 49, 286 rm(), 254 sample(), 76, 199, 286 sapply(), 243 SAS, 24, 35 savehistory(), 37, 208, 286 scale(), 64, 152, 286 Scheme, 25 sort(), 71 source(), 88, 208, 255, 263, 286 SPSS, 23, 35 SQL, 36, 237 sqlite, 36 STADIA, 23 StatGraphics, 23 STATISTICA, 23 STL, 183 str(), 51, 65, 84, 286 sub=, 268 summary(), 80, 82, 84, 105, 192, 201, 250, 286 SVG, 42 t(), 286 table(), 52, 103–105, 286 table, 108 tapply(), 203, 237, 286 text(), 44, 205, 269, 271, 286 Trellis, 146 type=, 267 unique(), 237 update.packages(), 281 which(), 237 write.table(), 34, 36, 201, 286 xlab=, 268 ylab=, 268 автокорреляция, 176, 182, 287 авторегрессия, 184–186, 287 альтернативная гипотеза, 96, 98 анализ — главных компонент, 151, 287 — дисперсионный, 128–131, 167, 208, 284, 288 — кластерный, 157–163, 289 — корреляционный, 19, 110– 111, 289 — линейный дискриминант- ный, 166–168, 289
Предметный указатель 297 — линейный регрессионный, 18, 115–119, 289 — связей, 163 векторизованные вычисления, 26 выборочные исследования, 12 генеральная совокупность, 95 генератор случайных чисел, 86 гистограмма, 43, 78, 79, 203, 266, 285, 287 график параллельных координат, 151 графики-пиктограммы, 148 графики-пироги, 56 десятичный разделитель, 34 дисперсия, 75, 288 доверительный интервал, 85, 115 зависимые переменные, 99 замена данных, 227 интерфейс командной строки, 24, 26, 209 информационный критерий Ака- ике, 127, 185–186, 190, 289 история команд, 254 квадратные скобки, 52, 71, 134, 284 квантиль, 74, 258, 266, 287, 289 — выборочный, 87 — теоретический, 87 квартиль, 73, 74, 77, 78, 80, 87, 266 — межквартильный разброс, 75–76, 202, 289 кодировка, 42 контроль, 12 коэффициент корреляции, 111 круговая статистика, 47 ленивые вычисления, 236 лица Чернова, 149 матрица — корреляционная, 111–114, 289 — расстояний, 157, 289 медиана, 59, 73–74, 77, 80, 81, 86, 102, 201, 207, 289 методы визуализации, 144 методы классификации с обуче- нием, 144 методы сокращения размерности, 151 метрология, 46 многомерное шкалирование, 158, 289 многомерные данные, 144 многомерный анализ, 19 множественные сравнения, 128, 139 мода, 74 наблюдение, 10 нелинейная зависимость, 124 нечеткие методы, 163 нулевая гипотеза, 96, 98 остатки, 116 отладка кода, 245 отрицательный индекс, 228 ошибка второго рода, 97 ошибки первого рода, 97 парный график, 153 перекодирование данных, 50, 51, 62, 238 плацебо, 11 принцип повторностей, 14 проценты, 56, 91 рабочая директория, 198 разбиение данных, 134 ранг, 58 ранговый коэффициент корреля- ции, 112 рандомизация, 15 распределение — нормальное, 259, 289 репрезентативность выборки, 95 робастность, 73 русский текст, 42 свободная переменная, 259 свободный код, 26 составные графики, 146 298 Предметный указатель среднее арифметическое, 73, 75, 285, 290 стандартная ошибка, 290 стандартное отклонение, 73, 74, 75, 202, 286, 290 статистические таблицы, 21 столбчатые диаграммы, 56 тест, 88–91 — Вилкоксона, 99, 102, 207, 286, 290 — Колмогорова-Смирнова, 87, 290 — Краскала-Уоллиса, 131, 290 — Манна-Уитни, 290 — Стьюдента, 98–101, 128, 207, 259, 286, 290 — Фишера, 116, 259, 290 — Шапиро-Уилкса, 86, 290 — биномиальный, 91, 101, 287 — непараметрический, 47 — параметрический, 47 — пропорций, 7, 92–93, 125, 208, 291 — хи-квадрат, 105, 109, 125, 128, 138, 208, 259, 284, 290 типы данных, 46, 291 — дискретные, 47, 291 — интервальные, 46–50, 59, 291 — непрерывные, 291 — номинальные, 50–54, 62, 103, 109, 125, 163, 200, 202, 225, 291 — шкальные, 49, 54, 56, 109, 225, 291 точечные графики, 58 тренировочная выборка, 166 углы, 47 фактор, 52–56 формула модели, 99, 123, 127, 291 числовой вектор, 48 эксперимент, 10 электронные таблицы, 21
Об авторах (по состоянию на 2014 г.) Шипунов Алексей Борисович — биолог, кандидат биол. наук, доцент кафедры биологии Университета Майнота (США), русский пере- водчик R. Балдин Евгений Михайлович — физик, кандидат физ.-мат. наук, Ин- ститут ядерной физики им. Г. И. Будкера, преподает в Новосибир- ском государственном университете, ведет колонку в журнале «Li- nux Format». Волкова Полина Андреевна — биолог, кандидат биол. наук, учитель биологии в профильных классах Московской гимназии на Юго- Западе № 1543. Коробейников Антон Иванович — математик, кандидат физ.-мат. наук, ассистент кафедры статистического моделирования математико- механического факультета Санкт-Петербургского Государственно- го Университета. Назарова София Александровна — биолог, Санкт-Петербургский госу- дарственный университет, Российский государственный педагоги- ческий университет им. А. И. Герцена. Петров Сергей Валерьевич — кандидат медицинских наук, магистр тех- нических наук, доцент Гродненского государственного университе- та имени Янки Купалы. Суфиянов Вадим Гарайханович — математик, кандидат физ.-мат. наук, доцент кафедры механики и прикладной информатики факультета прикладной математики Ижевского Государственного Техническо- го Университета.
Эта книга передана в общественное достояние Материалы книги и версия с последними правками доступны здесь: http://ashipunov.info/shipunov/software/r/r-ru.htm Новое английское издание доступно здесь: http://ashipunov.info/shipunov/software/r/r-en.htm
|