4_уч.пособие_УрФУ. Лабораторная работа построение графиков 15 Создание графиков 15 Форматирование графиков 23
Скачать 1.51 Mb.
|
СОДЕРЖАНИЕ ВВЕДЕНИЕ 4 СПРАВОЧНЫЕ ДАННЫЕ 10 1. Краткие сведения из теории статистики 10 2. Биржа 13 3. Пользовательский формат в Excel 14 Лабораторная работа № 1. ПОСТРОЕНИЕ ГРАФИКОВ 15 1. Создание графиков 15 2. Форматирование графиков 23 3. График биржевых цен 27 Лабораторная работа № 2. РЕГРЕССИОННЫЙ АНАЛИЗ 31 1. Множественная линейная регрессия 31 2. Индивидуальное задание 35 СПИСОК ЛИТЕРАТУРЫ 32 ВВЕДЕНИЕ Система «STATISTICA», разработанная компанией StatSoft, является одной из наиболее популярных статистических программ для поиска закономерностей, прогнозирования, классификации, визуализации данных. Может применяться в экономике, промышленности, медицине, научных исследованиях и других сферах человеческой деятельности. Клиентами StatSoft являются крупнейшие компании с мировым именем. В системе существует возможность проводить классические и новейшие методы проведения анализа данных: кластерный, факторный, корреляционный, дисперсионный анализ, линейную и нелинейную регрессии, нейронные сети и др. Визуализация исходных, промежуточных, выходных данных может быть осуществлена выбором из большого числа различных графиков, пиктографиков и диаграмм. Применение программы «STATISTICA» позволяет эффективно решать сложные проблемы и осуществлять аналитическую поддержку принятия решений. Система «STATISTICA» получает наивысшие оценки во всех сравнительных обзорах статистического программного обеспечения. СПРАВОЧНЫЕ ДАННЫЕ 1. Краткие сведения из теории статистики Статистика позволяет компактно описать данные, понять их структуру, провести классификацию, увидеть закономерности в хаосе случайных явлений. Переменная (variable) – это то, что можно измерять, контролировать или чем можно манипулировать в исследованиях. Общее представление о значениях переменной дают описательные статистики: минимум; максимум; среднее (сумма значений переменной, поделенная на число значений); дисперсия (изменяется от нуля до бесконечности, нулевое значение показывает, что переменные постоянны, изменений нет); стандартное отклонение (это корень квадратный из дисперсии; чем выше дисперсия и стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего). Два вида случайных величин: независимая – x(фактор); зависимая – y (результативный признак). Для определения аналитического выражения связи между независимой и зависимой случайными величинами используется регрессионный анализ. Форма связи – это уравнение регрессии. Виды регрессии: парная – исследуются две величины: фактор и результативный признак, множественная – исследуются несколько факторов и результативный признак, Для составления прогнозов может быть использовано уравнение регрессии, в котором определяются коэффициенты, называемые параметрами регрессии. Построенная линия уравнения регрессии показывает тенденцию изменения данных и называется линией тренда. Для создания линии тренда используются следующие виды аппроксимации: линейная, где A – тангенс угла наклона прямой, B ‑ точка пересечения с осью ординат; логарифмическая, где С, В – константы; полиномиальная, где С6…С1, В – константы; степенная, где С, В – константы; экспоненциальная, где С, В – константы. Достоверность аппроксимации определяется коэффициентом корреляции R, характеризующим связь между двумя множествами в уравнении линейной регрессии. Если R лежит в диапазоне от 0,9 до 1, то можно применить линейное уравнение регрессии. Если R близко к минус единице, то между наблюдаемыми зависимостями существует обратная зависимость. При других видах аппроксимации используется индекс корреляции. При R, равном или меньше, 0,3 присутствует слабая линейная связь; при R, равном 0,3–0,5, – умеренная линейная связь; при R, равном 0,5–0,7, – средняя или заметная линейная связь; при R, равном или больше 0,7, – сильная или высокая линейная связь; при R, равном или больше 0,9, – очень сильная или весьма высокая линейная связь. При R, равном единице, – полная функциональная зависимость, все точки на прямой. Для определения степени влияния факторов на результативный признак используется дисперсия следующих видов: общая дисперсия, показывающая степень влияния основных и остаточных факторов: факторная дисперсия, показывающая степень влияния основных факторов: остаточная дисперсия, показывающая степень влияния остаточных факторов, остаток – это разница между реальными значениями и теоретическими прогнозируемыми: где m – число факторов. Если существует корреляционная связь, то выполняется соотношение: При анализе с помощью множественной регрессии используется множественный коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции R и определяющий долю вариации результативного признака, обусловленную изменением факторов: При R2 больше 0,7 (критерий Фишера) считается, что вариация обусловлена влиянием факторов. Кроме того, для оценки результата аппроксимации используется средняя ошибка аппроксимации: Если некоторые параметры регрессии малы по сравнению со стандартной ошибкой, то их можно исключить из анализа. Для определения значимости результата используется p‑уровень, характеризующий вероятность ошибки. Обычно принимается p‑уровень равным 0,05 или меньше, т.е. ошибка должна быть не более 5 %. 2. Биржа Биржи публикуют информацию о совершаемых сделках на различные виды активов. В течение биржевой сессии цена изменяется следующим образом: цена открытия (Open Price) – цена, по которой совершается первая сделка; закрытия (Close Price) – цена, по которой совершается последняя сделка; высшая цена (High Price) – цена, зафиксированная в течение сессии; низшая цена (Low Price) – цена, зафиксированная в течение сессии. Эта информация имеет различное представление для разных бирж, но, как правило, цены сообщаются в таком порядке: Open, High, Low, Close. Цены Open, High, Low, Close на биржевом графике изображаются с помощью Candelsticks (японские свечи). Для каждой даты рисуется фигура (свеча). Цены открытия и закрытия представляются прямоугольником. Если цена открытия ниже цены закрытия, то прямоугольник белого цвета, нижняя сторона соответствует цене открытия, верхняя сторона – цене закрытия. Если цена открытия выше цены закрытия, то прямоугольник черного цвета, нижняя сторона соответствует цене закрытия, верхняя сторона – цене открытия. Этот прямоугольник пересекает вертикальный отрезок. Верхняя точка отрезка соответствует высшей цене, а нижняя – низшей (рис. 1). Рис. 1. Candelstick Фьючерс – это договор купли‑продажи базового актива с исполнением обязательств в установленную дату в будущем. Цены на фьючерсные контракты представлены в долларах США, причем используются тридцать вторые доли доллара. Так, цена фьючерса 93-14 означает 93 14/32, т.е. 93,4375. Чтобы получить цену контракта, эту величину надо умножить на 1000. 3. Пользовательский формат в Excel Для создания пользовательского формата в Excel применяется команда «Ячейки» из меню «Формат». На вкладке «Число» из списка форматов выбрать строку «(все форматы)». В строке «Тип» ввести шаблон. В общем случае он состоит из четырех частей, разделитель – точка с запятой: часть 1 – положительные числа; часть 2 – отрицательные числа; часть 3 – нули; часть 4 – текст. В частном случае, если в шаблоне используется одна часть, то это отображение любых чисел, если две части, то первая для неотрицательных чисел, а вторая для отрицательных, если три части, то формат для текста общий. Некоторые символы, используемые в шаблоне: 0 – одна цифра, в том числе незначащий нуль; # – одна цифра; ? – одна цифра с выравниванием по разделителю; _ – пробел (или как любой текст « »); @ – любое число текстовых символов. Примеры пользовательских форматов в сравнении с общим форматом представлены на рис. 2. Рис. 2. Пользовательский формат Лабораторная работа № 1. ПОСТРОЕНИЕ ГРАФИКОВ 1. Создание графиков Запустить программу «Statistica v.6.0». Создать новый файл командой «New» из меню «File». Установить «Number of variables» (число переменных) 3, а «Number of cases» (число столбцов) 3 (рис. 3). Остальные параметры установить так, как указано на рис. 3. Рис. 3. Создание нового файла Ввести, форматировать и сохранить данные: Выполнить двойной щелчок по ячейке «Var1» и в открывшемся окне ввести «Name» 2002 (рис. 4). Аналогично в ячейку «Var2» ввести значение 2003, а в ячейку «Var3» ввести 2004 (рис. 5). Командой «Save as» из меню «File» присвоить имя файлу и сохранить в своей рабочей папке. Рис. 4. Ввод имен переменных Рис. 5. Результат ввода имен переменных Выполнить двойной щелчок по ячейке «1» и ввести значение «дальнее зарубежье» (рис. 6). Нажать «Enter» и в ячейке «2» ввести «СНГ», вновь нажать «Enter» и в ячейке «3» ввести значение «Балтия». В остальные ячейки ввести значения, приведенные на рис. 7. Рис. 6. Результат ввода имен cases Рис. 7. Ввод значений переменных Щелчком правой клавиши мыши вызвать контекстное меню в левой верхней ячейке. Выбрать «Format Info Box Text». Выбрать шрифт (рис. 8) и выравнивание (рис. 9). Аналогично командой «Format Header» форматировать заголовок в верхней строке по центру, шрифт «Arial» 10 пт жирный (см. рис. 7). Сохранить данные в файле с расширением .STA. Построить график. Выполнить команду «2D Graphs /Line Plots (Variables)» из меню «Graphs». Нажать кнопку «Variables» на вкладке «Quick». Выбрать все переменные (рис.10). Выбрать тип графика «Multiple». На вкладке «Options 1» в списке «Case labels» выбрать значение «Case names». В строку «Custom title» ввести заголовок «Экспорт из Свердловской области», нажать «ОК». Результат представлен в прил. 1. Сохранить график в файле с расширением .STW. Рис. 8. Выбор шрифта Рис. 9. Установка выравнивания Рис. 10. Выбор переменных Генерировать другой вид графика. Для этого произвести следующие действия: Нажать кнопку «2D Line Plots – Variables» в левом нижнем углу окна программы (при ее отсутствии повторить п.1.5.1). В левом нижнем углу открывшегося окна нажать первую кнопку «Graphs Gallery». В окне «Graphs Gallery» выбрать вид графика «2D Graphs / / Line Plots (Cases Profiles)», нажать «ОК», вновь выбрать все переменные, «ОК». Результат представлен в прил. 2. Сохранить график под новым именем. Добавить для кривой линии «Дальнее зарубежье» диаграмму, состоящую из столбцов: Щелкнуть правой клавишей мыши по кривой «Дальнее зарубежье». В контекстном меню выбрать «Bar Options». В окне «Bars» включить переключатель «Display bars» и установить толщину столбца диаграммы «Width» (рис. 11), «ОК». Результат представлен в прил. 3. Сохранить график под новым именем. Рис. 11. Толщина столбцов Закрыть все графики. Создать график с двумя осями ординат: Для изменения вида исходных данных добавить пустые строки, выделив последнюю строку и выбрав в контекстном меню (правая клавиша мыши) команду «Add Cases»; при появлении запроса о закрытии предыдущего анализа выбрать вариант «Да». Ввести число добавляемых строк и место их расположения (рис. 12). Рис. 12. Добавление строк Вырезать поочередно заголовки строк (Cases): «дальнее зарубежье», «СНГ», «Балтия» командой «Cut» из контекстного меню и вставить их в 3 ячейки последней пустой строки командой «Paste» для временного хранения. Передвинуть мышью числовые данные, используя для временного хранения ячейки остальных двух пустых строк. Сдвиг аналогичен перетаскиванию в Excel (рис. 13). Выделить текст «Дальнее зарубежье» и вырезать в буфер. Двойным щелчком по заголовку первого столбца данных вызвать окно настройки переменной (см. рис. 4) В строке «Name» вместо 2002 вставить из буфера «Дальнее зарубежье», «ОК». Аналогично изменить имена второй и третьей переменных (см. рис. 13). Изменить заголовок столбца «Cases» на «Год». Ввести заголовки строк (см. рис. 13). Удалить пустые строки с помощью контекстного меню командой «Delete cases». Сохранить файл под новым именем в рабочей папке. Рис. 13. Результат транспонирования строк и столбцов Выполнить команду «2D Graphs / Line Plots (Variables)» из меню «Graphs». На вкладке «Advanced» выбрать тип графика «Double Y». Нажать кнопку «Variables» на этой же вкладке. Выбрать переменные для левой и правой осей Y (рис. 14). Закрыть окно, нажав ОК. Результат представлен в прил. 4. Сохранить график под новым именем. Рис. 14. Выбор типа графика 2. Форматирование графиков Изменить тип и толщину кривой «Балтия», щелкнув по ней правой клавишей мыши и выбрав команду «Properties»: В окне «General» щелкнуть по кнопке «Line». Выбрать непрерывную линию толщиной 2 болотного цвета (рис. 15). Нажать «Close». В окне «General» щелкнуть по кнопке «Markers». Выбрать форму маркера круг, размер 8. Нажать «Close», «ОК». Аналогично изменить кривые «СНГ», «Дальнее зарубежье». Цвет линий не менять (прил. 5). Контекстной командой «Graph Properties (All Options)», вызванной на фоне подложки, изменить параметры графика: Рис. 15. Окно форматирования На вкладке «Graph Window» нажатием кнопки «Outside Background Color» изменить цвет подложки на голубой. На вкладке «Graph Titles / Text» изменить заголовок на «Экспорт из Свердловской области» (см. прил. 5). Шрифт «Arial» 14 пт жирный. На вкладке «Plot: Point Labels» установить параметры, указанные на рис. 16. Нажатием кнопки «Font» изменить шрифт на «Times New Roman» 11 пт. При этом установку произвести для трех переменных, т.е. изменять поочередно значения в раскрывающемся списке «Plot». На вкладке «Axis Titles» ввести название оси X, цвет шрифта вишневый, остальные параметры указаны на рис. 17. Аналогично ввести названия левой и правой оси Y (см. прил. 5). На вкладке «Axis Scaling» изменить диапазон левой оси Y (рис. 18), затем нажатием кнопки «Edit step» изменить цену деления этой оси (рис. 19). Аналогично изменить правую ось Y (см. прил. 5). Рис. 16. Вкладка «Plot: Point Labels» Рис. 17. Вкладка «Axis: Title» Рис. 18. Вкладка «Axis: Scaling» На вкладке «Axis Major Units» нажатием кнопки «Gridlines» изменить тип линии сетки левой оси Y и оси Х. Выбрать второй слева образец (равномерная штриховая) (см. прил. 5). На вкладке «Axis Scale Values» включить опцию «Automatic – at major tickmarks» и выключить опцию «Data Values:» для левой и правой оси Y, «ОК» (см. прил. 5). Если расположение кривой переменной «СНГ» отличается от представленного в прил. 5, то выполнить контекстную команду «Properties», выполненную на фоне этой кривой, далее щелчок по кнопке «All Options…», установить значение «Right» в опции «Assignment of axis». Контекстной командой «Rename», вызванной на фоне значка текущего графика в древовидной иерархической структуре, расположенной слева от графика, изменить имя рабочего листа на «внешнеэкономическая деятельность» (см. прил. 5). Сохранить график под новым именем. Закрыть все файлы. Рис. 19. Цена деления левой оси Y 3. График биржевых цен Для сравнения построить в Excel и в Statistica биржевой график цен фьючерсных контрактов на казначейские облигации в тридцать вторых долях доллара, имея данные за 5 дней. Построить график в Excel: Ввести и форматировать данные в Excel (рис. 20). Для ввода тридцать вторых долей создать новый пользовательский дробный формат. Рис. 20. Исходные данные в дробном формате Построить график. Тип «Биржевая», вид «Биржевая диаграмма для наборов из четырех значений (курс открытия, курс закрытия, самый высокий курс, самый низкий курс)». Включить опцию «Категории» по оси Х на вкладке «Оси» для автоматического исключения выходных дней. Ввести заголовок графика и заголовки осей. Убрать легенду и линии сетки. Форматировать график. Изменить размер графика. Изменить и толщину осей, а также шрифт значений и названий, шрифт заголовка. Выбрать цвет: фон графика голубой, заголовок коричневый, названия осей вишневые (прил. 6). Подготовить данные для загрузки в Statistica: копировать данные с транспонированием с листа 1 на лист 2 (рис. 21). Сохранить файл. Закрыть Excel. Построить график в Statistica: Командой «Open» из меню «File» открыть в Statistica созданный в Excel файл. В окне «Select Sheet to Import» выбрать «Лист2». Рис. 21. Транспонированные данные Установить опции выбора переменных и Cases (рис. 22). Результат импорта представлен на рис. 23. Рис. 22. Выбор переменных Рис. 23. Импорт данных Изменить имена переменных, поменять местами день и месяц (см. п.1.4.1). Результат представлен на рис. 24. Рис. 24. Исходные данные Выполнить команду «2D Graphs / Box Plots» из меню «Graphs». Выбрать тип графика «Box Whiskers», составной «Multiple». Нажать кнопку «Variables» на вкладке «Quick». Выбрать все переменные в левой части, справа не выбирать переменные, «ОК», «ОК». Контекстной командой «Axis Properties» изменить формат оси Y: на вкладке «Scale Values» ввести шаблон пользовательского формата, аналогичный формату, созданному в Excel (рис. 25). Результат представлен в прил. 7. Сохранить и закрыть файл. Рис. 25. Пользовательский формат Лабораторная работа № 2. РЕГРЕССИОННЫЙ АНАЛИЗ 1. Множественная линейная регрессия Создать новый файл, в котором будут использованы исходные данные, приведенные в прил. 8: Командой «All Variable Specs» из меню «Data» ввести переменные: объем продаж за текущий месяц S, объем продаж за предыдущий месяц S1, расходы на рекламу в текущем месяце A, расходы на рекламу в предыдущем месяце A1, число туристов в текущем месяце T, средняя температура воздуха W, индекс розничных цен в текущем месяце P (см. прил. 8). Имена переменных, например S, вводить в столбец «Name», а комментарий, например «объем продаж за текущий месяц», в столбец «Long Name (label or formula)» Ввести число наблюдений за 24 месяца, значения переменных, заголовки (см. прил. 8). Запустить множественный регрессионный анализ: Выполнить команду «Multiple Regression» из меню «Statistics», вкладка «Advanced», кнопка «Variables». Выбрать зависимые (dependent) и независимые (independent) переменные (рис. 26), «ОК», «ОК». Результаты стандартного множественного регрессионного анализа представлены в прил. 9. Нажать кнопку «Cancel» и изменить процедуру на пошаговую «Stepwise» (рис. 27), «ОК». Выбрать метод на вкладке «Advanced» (рис. 28). Выбрать параметры пошаговой процедуры (рис. 29), «ОК». Результат представлен в прил. 10. Щелкнуть по кнопке «Summary: Regression Results» на вкладке «Advanced» (см. прил. 10). Рис. 26. Окно множественной регрессии Рис. 27. Пошаговый анализ Рис. 28. Выбор метода Рис. 29. Параметры пошаговой процедуры Итоги представлены в прил. 11. Вернуться в окно анализа, щелкнув по кнопке «Multiple Regression…». Произвести анализ остатков, щелкнув по кнопке «Perform residual analysis» на вкладке «Residuals/assumptions/prediction». Результат представлен в прил. 12. Исследовать зависимость между остатками и прогнозом, щелкнув по кнопке «Durbin-Watson statistic» на вкладке «Advanced». Результат представлен в прил. 13. Вернуться в окно анализа, щелкнув по кнопке «Residual Analysis:…». Щелкнуть по кнопке «Predicted vs. Observed» на вкладке «Scatterplots». Результат представлен в прил. 14. Вернуться в окно анализа, щелкнув по кнопке «Residual Analysis:…». Щелкнуть по кнопке «Cancel» для того, чтобы вернуться в окно «Model definition» (см. рис. 28), далее «ОК». Щелкнуть по кнопке «Predict dependent variable» на вкладке «Residuals/assumptions/prediction». Ввести данные для прогноза на следующий месяц (рис. 30), щелкнуть по кнопке «ОК». Рис. 30. Данные для прогноза Результат представлен на рис. 31. Ожидаемый объем продаж 11473,93. Рис. 31. Ожидаемый объем продаж Сохранить и закрыть все файлы. 2. Индивидуальное задание Создать новый файл. Исходные данные взять у преподавателя. Выполнить анализ данных с помощью множественной регрессии. СПИСОК ЛИТЕРАТУРЫ Боровиков В.П. STATISTICA. Искусство анализа данных на компьютере: для профессионалов / В.П. Боровиков. – СПб.: Питер, 2003. – 688 с. : ил. Макарова Н.В. Статистика в Excel: учебное пособие / Н.В. Макарова, В.Я. Трофимец. – М.: Финансы и статистика, 2002. – 368 с. : ил. Додж Марк. Эффективная работа: Excel 2002 : Пер. с англ. / Марк Додж, Крейг Стинсон. – СПб.: Питер, 2003. – 992 с. : ил. Руденко В.И. Статистика. Краткий курс: пособие студентам для подготовки к экзаменам / В.И. Руденко. – М.: Дашков и К°, 2005. – 188 с. Приложение 1 Предварительный график Приложение 2 Экспорт по годам Приложение 3 График со столбцами Приложение 4 График с двумя шкалами по ординате Приложение 5 График биржевых цен в Excel Приложение 6 Форматирование графика Приложение 7 График биржевых цен в Statistica Приложение 8 Исходные данные Приложение 9 Результат стандартной регрессии Приложение 10 Результат пошаговой регрессии Приложение 11 Итоги пошаговой регрессии Приложение 12 Анализ остатков Приложение 13 Итоги статистики Дарбина-Уотсона Приложение 14 Наблюдаемые и прогнозируемые значения Учебное электронное текстовое издание Тебайкина Надежда Ивановна РАБОТА В ПРОГРАММЕ STATISTICA РАБОТА В ПРОГРАММЕ STATISTICA Подготовка к публикации М.А. Медведевой Рекомендовано Методическим советом Разрешено к публикации Электронный формат – pdf Объем 2,8 уч.-изд. л. 620002, Екатеринбург, ул. Мира Информационный портал УрФУ http://www.ustu.ru |