Главная страница

А. Б. Шипунов, Е. М. Балдин, П. А. Волкова, А. И. Коробейников, С. А. Назарова


Скачать 3.04 Mb.
НазваниеА. Б. Шипунов, Е. М. Балдин, П. А. Волкова, А. И. Коробейников, С. А. Назарова
Анкорrbook
Дата29.09.2022
Размер3.04 Mb.
Формат файлаpdf
Имя файлаrbook.pdf
ТипДокументы
#705644
страница19 из 19
1   ...   11   12   13   14   15   16   17   18   19

Сколько строк?
order()
Сортировать plot()
График points()
Дополнение к графику: точки predict()
Предсказать значения q()
Выйти из R
qqnorm(); qqline()
Проверка на нормальность распределения rbind()
Соединить в матрицу по строкам read.table()
Чтение файла данных


286
Краткий словарь языка R
rep()
Создать последовательность одинаковых элементов sample()
Выбрать случайным образом savehistory()
Сохранить историю команд scale()
Нормировать переменные sd()
Стандартное отклонение source()
Загрузить скрипт str()
Структура переменной summary()
Главные описательные статистики (сводная статистика)
t()
Повернуть (транспонировать) таблицу t.test()
Тест Стьюдента table()
Кросс-табуляция tapply()
Применить функцию и кросс-табуляцию к объекту text()
Дополнение к графику: нанести на график текст wilcox.test()
Тест Вилкоксона или Манна-Уитни write.table()
Записать таблицу данных на диск

Приложение Е
Краткий словарь терминов
Этот очень краткий словарь поможет найти для самых распростра- ненных терминов и понятий статистики английский эквивалент, соот- ветствующую команду R и краткое пояснение. Его можно использовать как своего рода обратный словарь команд, который может оказаться полезным тогда, когда известно, что нужно делать, но неизвестно, ка- кую команду R использовать.
p-значение – p-value – вероятность получить оцениваемую характери- стику при условии, что нулевая гипотеза верна; если это значение ниже определенного порога, то нулевую гипотезу надо отвергнуть
(о статистических гипотезах рассказано в главе о двумерных дан- ных).
Автокорреляция – autocorrelation – acf() – корреляция между после- довательными значениями временного ряда.
Авторегрессия интегрированного скользящего среднего – Autoregressive
Integrated Moving Average, ARIMA – arima() – метод построения модели временного ряда для составления прогноза.
Анализ главных компонент – principal component analisys – princomp(),
prcomp()
метод многомерного анализа, «проецирующий» много- мерное облако на плоскость компонент.
Биномиальный тест – binomial test – binom.test() – позволяет прове- рить, различаются ли пропорции.
График-гистограмма – histogram – hist() – диаграмма для отображе- ния частоты встречаемости значений в выборке.
График-коррелограмма, диаграмма рассеяния – scatterplot – plot(x,y) –
график, показывающий соотношение двух признаков в выборке.
График нормального распределения – normal distribution graph –
plot(density(rnorm(1000000)))
– «колокол», «шляпа» (рис. 72).
График сравнения квантилей – quantile comparison plot – qqplot() –
график, показывающий соотношение квантилей в двух выборках

288
Краткий словарь терминов
−4
−2 0
2 4
0.
0 0.
1 0.
2 0.
3 0.
4
Рис. 72. График нормального распределения
(используется, например, при сравнении выборочного распределе- ния с нормальным).
График «стебель-с-листьями», текстовая гистограмма – stem-anf-leaf plot – stem() – псевдографик, показывающий частоту встречае- мости значений в выборке.
График «ящик-с-усами», боксплот – boxplot – boxplot() – диаграмма для отображения основных характеристик одной или нескольких выборок.
Дисперсионный анализ – analysis of variance, ANOVA – anova() – се- мейство параметрических тестов, которые используются для срав- нения нескольких выборок.
Дисперсия – variance – var() – усредненная разница между средним значением и всеми остальными значениями выборки.

Краткий словарь терминов
289
Доверительный интервал – confidence interval – промежуток, в котором может находиться значение какого-нибудь параметра (средней, ме- дианы и т. п.).
Информационный критерий Акаике – Akaike’s Information Criterion,
AIC – AIC() – критерий, оценивающий оптимальность модели; наи- более оптимальная модель обычно соответствует минимальному
AIC.
Квантиль – quantile – quantile() – возвращает значения квантилей (по умолчанию 0, 25, 50,75 и 100%) для выборки.
Кластерный анализ – cluster analisys – hclust() – метод визуализации сходства/различия объектов в выборке в виде дерева (дендрограм- мы).
Корреляционная матрица – correlation matrix – cor() – возвращает ко- эффициенты корреляции для всех пар выборок.
Корреляционный анализ – correlation analysis – cor.test() – группа ме- тодов, служащих для определения силы соответствия между двумя выборками.
Линейный дискриминантный анализ – linear discriminant analysis – lda() –
метод многомерного анализа, позволяет создать классификацию на основе тренировочной выборки.
Линейный регрессионный анализ – linear regression – lm() – исследует характер линейной связи между объектами.
Матрица различий, Матрица расстояний (например, в кластерном ана- лизе, в многомерном шкалировании) – distance matrix – dist(),
daisy()
, vegdist() – вычисляет расстояние (различие) между объ- ектами по набору признаков по заданному алгоритму.
Медиана – median – median() – значение, отсекающее половину упоря- доченной выборки.
Межквартильный разброс – interquartile range – IQR() – расстояние между вторым и четвертым квартилями, устойчивый (робастный)
метод измерения разброса данных.
Многомерное шкалирование, анализ главных координат – multidimen- sional scaling, MDS – cmdscale() – строит подобие географической карты на основе матрицы расстояний.
Непараметрический – non-parametric – не связанный предположениями о типе распределения, пригодный для анализа произвольно распре- деленных данных.

290
Краткий словарь терминов
Нормальное распределение – normal distribution – rnorm() – главное распределение статистики, возникает, например, если долго стре- лять в мишень, а потом подсчитать все расстояния до «десятки»,
основа параметрических методов.
Параметрический – parametric – соответствующий нормальному рас- пределению, пригодный для анализа нормального распределенных данных.
Распределение – distribution – «внешний вид» данных; теоретическое распределение указывает, как должны выглядеть данные; распре- деление выборки
— как данные выглядят на самом деле.
Среднее арифметическое – arithmetic mean, mean, average – mean() –
сумма всех значений выборки, деленная на ее объем.
Стандартная ошибка – standard error, SE – sd(x)/sqrt(length(x)) –
стандартное отклонение, нормализованное по объему выборки.
Стандартное отклонение, среднеквадратическое отклонение – standard deviation – sd() – корень квадратный из дисперсии.
Столбчатая диаграмма – bar plot – barplot() – диаграмма для отобра- жения нескольких числовых значений (например, подсчетов).
Тест (критерий) Вилкоксона (Уилкоксона) – Wilcoxon test – wilcox.
test()
– используется для сравнения медиан одной или двух вы- борок, непараметрический аналог t-теста.
Тест (критерий) Колмогорова-Смирнова – Kolmogorov-Smirnov test –
ks.test()
– используется для сравнения двух распределений, в том числе сравнения распределения выборки с нормальным.
Тест (критерий) Краскала-Уоллиса – Kruskal-Wallis test – kruskal.te- st()
– используется для сравнения нескольких выборок, непара- метрический аналог дисперсионного анализа.
Тест (критерий) Манна-Уитни – Mann-Whitney test – wilcox.test() –
см. тест (критерий) Уилкоксона.
Тест (критерий) Стьюдента, t-тест – t-test – t.test() – семейство пара- метрических тестов, которые используются для сравнения средних одной или двух выборок.
Тест (критерий) Фишера, F-тест – F-test – var.test() – параметриче- ский тест, который используется для сравнения дисперсий в двух выборках.
Тест (критерий) хи-квадрат, критерий согласия, тест Пирсона – Chi- squared test – chisq.test() – проверяет, есть ли соответствие меж- ду строками и столбцами в таблице сопряженности.

Краткий словарь терминов
291
Тест (критерий) Шапиро-Уилкса – Shapiro-Wilk test – shapiro.test() –
тест для проверки гипотезы о нормальности распределения выбор- ки.
Тест пропорций – proportional test – prop.test() – проверяет, в част- ности, одинаковы ли пропорции.
Типы данных – data types – различные типы данных, которые исполь- зуют в статистическом анализе:
Интервальные – measurement:
Непрерывные – continuous;
Дискретные – meristic, discrete, discontinuous;
Шкальные – ranked, ordered;
Номинальные – categorical, nominal.
Формулы моделей – model formulae – formula() – способ краткого опи- сания модели для статистического анализа:
отклик воздействие
: формула анализа регрессии;
отклик воздействие1 + воздействие2
: формула множественной регрессии;
отклик фактор
: формула однофакторного дисперсионного ана- лиза;
отклик фактор1 + фактор2
: формула многофакторного диспер- сионного анализа;
отклик воздействие * фактор
: формула анализа ковариаций, рас- крывается в формулу «отклик воздействие + фактор + воздействие
: фактор
».
Знаки, используемые в формулах моделей:
все возможные факторы и воздействия (предикторы моде- ли);
+
добавляет фактор или воздействие;
- убирает фактор или воздействие;
:
взаимодействие;

292
Краткий словарь терминов
*
все логически возможные комбинации факторов и воздей- ствий;
/
вложение, «фактор1 / фактор2» значит, что фактор2 вложен в фактор1 (скажем, улица «вложена» в округ, округ в город);
|
условие, «фактор1 | фактор2» значит «разбить фактор1 по уровням фактор2»;
I()
вернуть всему, что в скобках, обычный арифметический смысл.

Литература
К сожалению, русскоязычных книг по статистике, где статистиче- ские проблемы освещались бы простым языком, довольно мало. Наде- емся, что наш труд поможет в какой-то мере исправить ситуацию.
Волкова П. А., Шипунов А. Б. Статистическая обработка данных в учеб- но-исследовательских работах. — М.: Форум, 2012. — 96 с.
Гланц С. Медико-биологическая статистика. — М.: Практика, 1998. —
459 с.
Кендэл М. Временные ряды. — М.: Финансы и статистика, 1981. — 191 с.
Кимбл Г. Как правильно пользоваться статистикой. — М.: Финансы и статистика, 1982. — 294 с.
Любищев А. А. Дисперсионный анализ в биологии. — М.: Изд-во Моск.
ун-та, 1986. — 200 с.
Плавинский С. Л. Введение в биостатистику для медиков. — М.: Аква- рель, 2011. — 584 с.
Петри А., Сэбин К. Наглядная статистика в медицине. — М.: Гэотар-
Мед, 2002. — 144 с.
Тьюки Дж. Анализ результатов наблюдений. Разведочный анализ. —
М.: Мир, 1981. — 695 с.
Тюрин Ю. Н., Макаров А. Л. Анализ данных на компьютере. — М.:
ИНФРА-М, 1995. — 284 с.
Факторный, дискриминантный и кластерный анализ. — М.: Финансы и статистика, 1989. — 215 с.
Cleveland W. S. The elements of graphing data. — USA: Wandsworth Ad- vanced Books and Software, 1985. — 323 p.
Crawley M. R Book. — England: John Whiley & Sons, 2007. — 942 p.
Dalgaard P. Introductory statistics with R. 2 ed. — USA: Springer Science
Business Media, 2008. — 363 p.
Gordon A. D. Classification. — USA: Chapman & Hall/CRC, 1999. — 256 p.
Marriott F. H. C. The interpretation of multiple observations. — USA, Eng- land: Academic Press, 1974. — 117 p.

294
Литература
McKillup S. Statistics explained. An introductory guide for life scientists. —
England: Cambridge University Press, 2005. — 267 p.
R
Development Core Team. R: A language and environment for statistical computing. — R Foundation for Statistical Computing, Vienna, Aus- tria.
Rowntree D. Statistics without tears. — England: Clays, 2000. — 195 p.
Sokal R. R., Rolf F. J. Biometry. The principles and practice of statistics in biological research. — USA: W.H. Freeman and Company, 1995. —
887 p.
van Emden H. Statistics for terrified biologists. — USA: Blackwell Publish- ing, 2008. — 343 p.
Venables W. N., Ripley B. D. Modern applied statistics with S. 4th ed. —
USA: Springer, 2002. — 495 p.

Предметный указатель
$, 229, 230, 257, 284
ACF, 182
add=, 267
aggregate(), 237
AIC, 127, 185
ANCOVA, 122
ANOVA, 128, 131
anova(), 129, 284
apply(), 75, 202, 284
args(), 235
ARIMA, 189
as.character(), 54, 56, 284
as.numeric(), 56, 284
axes=, 267
boxplot(), 102, 284
c(), 30, 256, 284
cbind(), 65, 244, 256, 284
chisq.test(), 105, 284
circular statistics, 47
colSums(), 83, 284
cor(), 111–114, 284
cor.test(), 114, 208, 284
correspondence analysis, 164
CRAN, 27, 38
data mining, 144
data.frame(), 68–70, 226, 232, 284
dev.list(), 280
dev.next(), 280
dev.off(), 281
dev.print(), 281
do.call(), 244
dotchart(), 58, 266, 284
example(), 253, 271, 285
file.show(), 33, 285
function(), 236, 285
function, 233
GUI, 209
head(), 199, 285
help(), 30, 252–253, 271, 285
help.start(), 282
hist(), 43, 78, 203, 266, 285
identify(), 272
if, 236
ifelse(), 242
install.packages(), 281
lattice, 146
legend(), 205, 269–270, 275, 285
length(), 285
library(), 281
lines(), 269, 275, 285
literate programming, 193
lm(), 117, 129, 285
locator(), 271
LOESS, 124, 183
log(), 241, 267, 285
log10(), 37
mai=, 277
main=, 268
MANOVA, 167
mar=, 278
max(), 201, 285
median, 201
median(), 73, 285
merge(), 237

296
Предметный указатель mfcol=, 278
mfg=, 278
mfrow=, 278
min(), 201, 285
MiniTab, 23, 35
MySQL, 36
NA, 60–61, 84, 223, 228, 229, 236,
285
names(), 67, 228, 285
nrow(), 285
ODF, 197
order(), 70, 71, 206, 237, 285
par(), 272
pch=, 274
PDF, 42
plot(), 52, 264–265, 270, 285
points(), 269, 285
PostgresSQL, 36
PostScript, 42
predict(), 140, 153, 285
q(), 29, 285
qqline(), 87, 203, 266, 285
qqnorm(), 87, 203, 266, 285
rbind(), 65, 256, 285
read.table(), 32–35, 56, 177, 285
readline, 254
Recall(), 234
recover(), 246
rep(), 31, 49, 286
rm(), 254
sample(), 76, 199, 286
sapply(), 243
SAS, 24, 35
savehistory(), 37, 208, 286
scale(), 64, 152, 286
Scheme, 25
sort(), 71
source(), 88, 208, 255, 263, 286
SPSS, 23, 35
SQL, 36, 237
sqlite, 36
STADIA, 23
StatGraphics, 23
STATISTICA, 23
STL, 183
str(), 51, 65, 84, 286
sub=, 268
summary(), 80, 82, 84, 105, 192,
201, 250, 286
SVG, 42
t(), 286
table(), 52, 103–105, 286
table, 108
tapply(), 203, 237, 286
text(), 44, 205, 269, 271, 286
Trellis, 146
type=, 267
unique(), 237
update.packages(), 281
which(), 237
write.table(), 34, 36, 201, 286
xlab=, 268
ylab=, 268
автокорреляция, 176, 182, 287
авторегрессия, 184–186, 287
альтернативная гипотеза, 96, 98
анализ
— главных компонент, 151,
287
— дисперсионный, 128–131,
167, 208, 284, 288
— кластерный, 157–163, 289
— корреляционный, 19, 110–
111, 289
— линейный дискриминант- ный, 166–168, 289

Предметный указатель
297
— линейный регрессионный,
18, 115–119, 289
— связей, 163
векторизованные вычисления, 26
выборочные исследования, 12
генеральная совокупность, 95
генератор случайных чисел, 86
гистограмма, 43, 78, 79, 203, 266,
285, 287
график параллельных координат,
151
графики-пиктограммы, 148
графики-пироги, 56
десятичный разделитель, 34
дисперсия, 75, 288
доверительный интервал, 85, 115
зависимые переменные, 99
замена данных, 227
интерфейс командной строки, 24,
26, 209
информационный критерий Ака- ике, 127, 185–186, 190, 289
история команд, 254
квадратные скобки, 52, 71, 134,
284
квантиль, 74, 258, 266, 287, 289
— выборочный, 87
— теоретический, 87
квартиль, 73, 74, 77, 78, 80, 87, 266
— межквартильный разброс,
75–76, 202, 289
кодировка, 42
контроль, 12
коэффициент корреляции, 111
круговая статистика, 47
ленивые вычисления, 236
лица Чернова, 149
матрица
— корреляционная, 111–114,
289
— расстояний, 157, 289
медиана, 59, 73–74, 77, 80, 81, 86,
102, 201, 207, 289
методы визуализации, 144
методы классификации с обуче- нием, 144
методы сокращения размерности,
151
метрология, 46
многомерное шкалирование, 158,
289
многомерные данные, 144
многомерный анализ, 19
множественные сравнения, 128,
139
мода, 74
наблюдение, 10
нелинейная зависимость, 124
нечеткие методы, 163
нулевая гипотеза, 96, 98
остатки, 116
отладка кода, 245
отрицательный индекс, 228
ошибка второго рода, 97
ошибки первого рода, 97
парный график, 153
перекодирование данных, 50, 51,
62, 238
плацебо, 11
принцип повторностей, 14
проценты, 56, 91
рабочая директория, 198
разбиение данных, 134
ранг, 58
ранговый коэффициент корреля- ции, 112
рандомизация, 15
распределение
— нормальное, 259, 289
репрезентативность выборки, 95
робастность, 73
русский текст, 42
свободная переменная, 259
свободный код, 26
составные графики, 146

298
Предметный указатель среднее арифметическое, 73, 75,
285, 290
стандартная ошибка, 290
стандартное отклонение, 73, 74,
75, 202, 286, 290
статистические таблицы, 21
столбчатые диаграммы, 56
тест, 88–91
— Вилкоксона, 99, 102, 207,
286, 290

Колмогорова-Смирнова,
87, 290
— Краскала-Уоллиса, 131,
290
— Манна-Уитни, 290
— Стьюдента, 98–101, 128,
207, 259, 286, 290
— Фишера, 116, 259, 290
— Шапиро-Уилкса, 86, 290
— биномиальный, 91, 101, 287
— непараметрический, 47
— параметрический, 47
— пропорций, 7, 92–93, 125,
208, 291
— хи-квадрат, 105, 109, 125,
128, 138, 208, 259, 284, 290
типы данных, 46, 291
— дискретные, 47, 291
— интервальные, 46–50, 59,
291
— непрерывные, 291
— номинальные, 50–54, 62,
103, 109, 125, 163, 200, 202,
225, 291
— шкальные, 49, 54, 56, 109,
225, 291
точечные графики, 58
тренировочная выборка, 166
углы, 47
фактор, 52–56
формула модели, 99, 123, 127, 291
числовой вектор, 48
эксперимент, 10
электронные таблицы, 21

Об авторах
(по состоянию на 2014 г.)
Шипунов Алексей Борисович — биолог, кандидат биол. наук, доцент кафедры биологии Университета Майнота (США), русский пере- водчик R.
Балдин Евгений Михайлович — физик, кандидат физ.-мат. наук, Ин- ститут ядерной физики им. Г. И. Будкера, преподает в Новосибир- ском государственном университете, ведет колонку в журнале «Li- nux Format».
Волкова Полина Андреевна — биолог, кандидат биол. наук, учитель биологии в профильных классах Московской гимназии на Юго-
Западе № 1543.
Коробейников Антон Иванович — математик, кандидат физ.-мат. наук,
ассистент кафедры статистического моделирования математико- механического факультета Санкт-Петербургского Государственно- го Университета.
Назарова София Александровна — биолог, Санкт-Петербургский госу- дарственный университет, Российский государственный педагоги- ческий университет им. А. И. Герцена.
Петров Сергей Валерьевич — кандидат медицинских наук, магистр тех- нических наук, доцент Гродненского государственного университе- та имени Янки Купалы.
Суфиянов Вадим Гарайханович — математик, кандидат физ.-мат. наук,
доцент кафедры механики и прикладной информатики факультета прикладной математики Ижевского Государственного Техническо- го Университета.

Эта книга передана в общественное достояние
Материалы книги и версия с последними правками доступны здесь:
http://ashipunov.info/shipunov/software/r/r-ru.htm
Новое английское издание доступно здесь:
http://ashipunov.info/shipunov/software/r/r-en.htm
1   ...   11   12   13   14   15   16   17   18   19


написать администратору сайта