курс лекций. КУРС ЛЕКЦИЙ. Программного обеспечения Предмет, содержание и задачи курса Информационная
Скачать 1.5 Mb.
|
Раздел 4. Статистические пакеты обработки информации 1. Эконометрические методы анализа данных 2. Обзор статистических пакетов обработки информации: Statistica, Statgraphics Plus for Windows 3. Применение стандартных статистических функций в MS Excel. 1. Эконометрические методы анализа данных Эконометрика посвящена развитию и применению статистических методов в экономике. В эконометрике, как дисциплине на стыке экономики и статистического анализа, выделяют три вида научной и прикладной деятельности: а) разработка и изучение методов прикладной статистики с учетом специфики экономических данных; б) разработка и изучение эконометрических моделей в соответствии с конкретными потребностями экономической науки и практики; в) применение эконометрических методов для статистического анализа конкретных экономических данных. Анализ экономических данных и прикладная статистика Для анализа экономических данных могут применяться все разделы прикладной статистики: – статистика случайных величин; – многомерный статистический анализ; – статистика временных рядов и случайных процессов; – статистика интервальных данных. Применение статистики позволяет решить следующие задачи: – описание данных (в том числе усреднение); – оценивание; – проверка гипотез; – восстановление зависимостей; – классификация объектов и признаков; – прогнозирование; – принятие решений и др. Особенностью использования статистических методов является то, что многие экономические показатели неотрицательны. Следовательно, их необходимо описывать неотрицательными случайными величинами, имеющими логарифмически нормальное распределение, гамма-распределение или распределение Парето и др. Экономические процессы развиваются во времени, поэтому важное место в эконометрике занимают вопросы анализа и прогнозирования временных рядов, в том числе многомерных. При этом в одних задачах больше внимания уделяют изучению трендов (средних значений, математических ожиданий), например, при анализе динамики цен. В других же важны отклонения от средней тенденции. Количество изучаемых объектов в экономическом исследовании часто ограничено, поэтому обоснование вероятностных моделей в ряде случаев невозможно. В эконометрике часто применяются детерминированные методы анализа данных. Статистические методы и объекты исследования Существуют два подхода к изучению поведения организаций и людей. Согласно первому из них, вполне допустимо описывать действия человека в вероятностных терминах, например, считать его ответ на заданный вопрос случайной величиной. Второй подход предполагает, что поведение человека или организации является детерминированным, определяется теми или иными причинами, а случайность при анализе выборки возникает лишь из-за случайности при отборе лиц для опроса. Специфика эконометрики проявляется не в перечне статистических методов, а в частоте их использования. Для приведения экономических величин к одному моменту времени (к сопоставимым ценам) используются индексы инфляции (дефляторы). Рассчитывают их с помощью тех или иных потребительских корзин. В статистике интервальных данных элементами выборки являются не числа, а интервалы. Статистические модели экономических явлений и процессов определяются спецификой той или иной области экономических исследований. Например, в экономике качества модели, на которых основаны статистические методы сертификации и управления качеством – статистический контроль, контрольные карты, планирование эксперимента, оценка и контроль надежности и другие – используют как технические, так и экономические характеристики, а потому относятся к эконометрике, равно как и многие модели теории массового обслуживания. Экономический эффект только от использования статистического контроля доказан во многих экономически развитых странах. На основе подходов статистики объектов нечисловой природы предложен метод проверки независимости двух альтернативных признаков. Метод применяется в задачах статистического контроля качества продукции. Проверка независимости проводится по совокупности малых выборок, то есть в асимптотике А.Н. Колмогорова, когда число неизвестных параметров распределения растет пропорционально объему данных. Чем выше достигнутый уровень качества, тем больше необходимый объем контроля. Экспертные оценки и прогнозирование Важный раздел эконометрики – теория и практика экспертных оценок. Экспертные оценки используют для решения ряда экономических задач, например, выбора оптимального направления инвестиций, или наилучшего образца определенного вида продукции для организации массового выпуска, или при прогнозировании развития экономической ситуации. Следовательно, используемые в теории экспертных оценок модели являются эконометрическими. Также известны в теоретических и учебных публикациях эконометрические модели, предназначенные для прогнозирования макроэкономических показателей. Это модели прогнозирования многомерного временного ряда, в которых оценивают как структуру модели, то есть вид зависимости между значениями известных координат вектора в прежние моменты времени и их значениями в прогнозируемый момент, так и коэффициенты, входящие в эту зависимость. Структура такой модели – объект нечисловой природы, что и объясняет сложность соответствующей теории. Эконометрические методы в различных сферах экономики Каждой области экономических исследований, связанной с анализом эмпирических данных, как правило, соответствуют свои эконометрические модели. Например, для моделирования процессов налогообложения с целью оценки результатов применения управляющих воздействий на процессы налогообложения должен быть разработан комплекс эконометрических моделей. Кроме системы уравнений, описывающей динамику системы налогообложения под влиянием общей экономической ситуации, управляющих воздействий и случайных отклонений, необходим блок экспертных оценок. Эконометрические методы нужны для оценки параметров экономико- математических моделей логистики (управления запасами). Ярким примером применения эконометрических методов является анализ динамики цен и уровня жизни. Практически любая область экономики имеет дело со статистическим анализом эмпирических данных, а потому имеет те или иные эконометрические методы в своем инструментарии. С помощью эконометрических методов следует оценивать различные величины и зависимости, используемые при построении имитационных моделей процессов налогообложения, в частности, функции распределения предприятий по различным параметрам налоговой базы. При анализе потоков платежей необходимо использовать эконометрические модели инфляционных процессов, чтобы установить реальное соотношение авансовых и итоговых платежей. Прогнозирование сбора налогов будет осуществляться с помощью системы временных рядов. Вначале по каждому одномерному параметру отдельно, а затем – с помощью эконометрической системы уравнений, дающей возможность прогнозировать векторный параметр с учетом связей между координатами. Эконометрические методы – эффективный инструмент в работе менеджера и инженера, занимающегося конкретными проблемами, предназначенные для анализа статистических данных и построения эконометрических моделей конкретных экономических и технико-экономических явлений и процессов. 2. Обзор статистических пакетов обработки информации: Statistica, Statgraphics Plus for Windows STATISTICA - это универсальная интегрированная система, предназначенная для статистического анализа и визуализации данных, управления базами данных и разработки пользовательских приложений, содержащая широкий набор процедур анализа для применения в научных исследованиях, технике, бизнесе, а также специальные методы добычи данных. Помимо общих статистических и графических средств в системе имеются специализированные модули, например, для проведения социологических или биомедицинских исследований, решения технических и, что очень важно, промышленных задач: карты контроля качества, анализ процессов и планирование эксперимента. Работа со всеми модулями происходит в рамках единого программного пакета, для которого можно выбирать один из нескольких предложенных интерфейсов пользователя. С помощью реализованных в системе STATISTICA мощных языков программирования, снабженных специальными средствами поддержки, легко создаются законченные пользовательские решения и встраиваются в различные другие приложения или вычислительные среды. Очень трудно представить себе, что кому-то могут понадобиться абсолютно все статистические процедуры и методы визуализации, имеющиеся в системе STATISTICA, однако опыт многих людей, успешно работающих с пакетом, свидетельствует о том, что возможность доступа к новым, нетрадиционным методам анализа данных (а STATISTICA предоставляет такие возможности в полной мере) помогает находить новые способы проверки рабочих гипотез и исследования данных. Система STATISTICA предлагает пользователю широкий выбор методов разведочного анализа данных. Программа вычисляет практически все используемые описательные статистики общего характера: медиану, моду, квартили, заданные пользователем процентили, среднее значение и стандартное отклонение, квартильный размах, доверительные интервалы для среднего, асимметрию и эксцесс (и их стандартные ошибки), гармоническое и геометрическое среднее, а также многие специальные описательные статистики. Как и во всех других модулях системы STATISTICA, проведение разведочного анализа данных поддерживают разнообразные графики и диаграммы, в т.ч. различные виды диаграмм размаха и гистограмм, гистограммы двумерных распределений (трехмерные и категоризованные), двух- и трехмерные диаграммы рассеяния с помеченными подмножествами данных, нормальные и полунормальные вероятностные графики и графики с исключенным трендом, К-К и В- В графики и т.д. Имеется набор критериев для подгонки нормального распределения к данным (критерии Колмогорова-Смирнова, Лилиефорса и Шапиро-Уилкса). Процедуры для подгонки многих других типов распределений можно найти также в описании анализа процессов и графических возможностей системы. Практически все описательные статистики и графики могут быть построены для данных, категоризованных (сгруппированных) по значениям одной или нескольких группирующих переменных. Например, с помощью нескольких щелчков мыши можно сгруппировать имеющиеся данные о людях по полу и возрасту и затем просмотреть категоризованные гистограммы, диаграммы размаха, графики на нормальной вероятностной бумаге, диаграммы рассеяния и т.д. В случае, если было выбрано более двух категоризующих переменных, автоматически будет постоен каскадсоответствующих графиков. Имеется возможность производить категоризацию по числовым (непрерывным) переменным, например, можно потребовать, чтобы значения переменной были разбиты на заданное число интервалов; с помощью средства перекодировки в реальном времени можно задать конкретный специальный способ перекодировки переменной (возможности практически сколь угодно сложной перекодировки доступны в любой момент, причем перекодировка может быть задана через соотношения между любыми переменными файла данных). В дополнение к этому в системе имеется специализированная процедура иерархической группировки, позволяющая осуществлять категоризацию данных по многим (до шести) переменным и строить различные категоризованные графики, описательные статистики и корреляционные матрицы для подгрупп (пользователь может в интерактивном режиме cделать неучитываемыми некоторые из факторов в полной таблице группировок и изучать статистики для маргинальных таблиц). Многочисленные возможности форматирования и расстановки меток позволяют получать таблицы и отчеты презентационного качества, содержащие длинные метки и описания переменных. При этом важно отметить, что процедура группировки выполняется для чрезвычайно больших объемов данных (например, по одной категоризующей переменной можно построить до 300 групп), а ее результаты содержат все соответствующие статистики дисперсионного анализа (включая полные таблицы ANOVA, критерии проверки гипотез типа критерия Левена однородности дисперсии, семь различных апостериорных (post-hoc)критериев и т.д.). Как и во всех других модулях системы STATISTICA, для достижения высокой - не имеющей аналогов в сравнении с другими пакетами - точности результатов здесь можно производить вычисления с повышенной точностью (если нужно - с четырехкратной). Благодаря интерактивному характеру системы изучение данных становится очень простым делом. Например, графики и диаграммы для разведочных статистик можно получать непосредственно из данных любых выходных таблиц, просто указав мышью на отдельные ячейки или группы ячеек. Одним щелчком мыши можно получать каскады графиков (в том числе сложных, например, со множественными категориями), которые затем можно просматривать в режиме подобном демонстрации слайдов, просто нажимая кнопку Продолжить. В дополнение к большому числу готовых статистических графиков пользователь может самостоятельно задавать различные типы визуализации исходных данных, описательных статистик, взаимосвязей между статистиками, группировок и категоризаций с помощью средств прямого доступа (point-and-click), что позволяет существенно уменьшить требуемое количество действий мышью. Средства графического разведочного анализа объединены с собственно статистичекими процедурами, что существенно облегчает визуальный анализ данных (например, в интерактивном режиме можно удалять выбросы, выделять подмножества данных, осуществлять сглаживание и подгонку функций, а богатые средства работы с кистью позволяют легко выявлять и/или выделять нужные данные). STATGRAPHICS Plus for Windows – общие и уникальные свойства STATGRAPHICS Plus for Windows включает более 250 статистических и системных процедур, применяющихся в бизнесе, экономике, маркетинге, медицине, биологии, социологии, психологии, на производстве и в других областях. Каждой группе процедур соответствует собственное меню. В Базовой Системе функционируют следующие процедуры: Меню Describe содержит статистические методы анализа по одной и множеству переменных, процедуры подбора распределений, средства табуляции и кросс табуляции данных; Меню Compare включает методы сравнения двух и более выборок данных, процедуры одно и многофакторного дисперсионного анализа; Меню Relate содержит процедуры простого, полиномиального и множественного регрессионного анализа. Как видим, в Базовую Систему включен достаточно полный набор наиболее часто встречающихся видов статистического анализа данных. В то же время для расширения возможностей системы предлагаются дополнительные модули, инициализация которых осуществляется через меню Special. К ним относятся: Модуль «Контроль качества» предназначен для оценки эффективности всех звеньев производственного процесса и формирования соответствующих контрольных карт. В модуле прекрасно организованы процедуры для конструирования Парето карт, анализа возможностей процесса и построения X и R контрольных карт. Тесная связь с базовой системой STATGRAPHICS Plus for Windows обеспечивает доступ к полному набору статистических методов. Представляется, что процедуры контроля качества реализованы наилучшим образом. Модуль «Планирование эксперимента» помогает сформулировать критерий оптимальности плана эксперимента, подобрать наилучший план, организовать сбор и обработку требуемой информации. При работе с этим модулем пользователю не стоит беспокоится, много или мало ему известно о планировании эксперимента. В модуле предлагаются эффективные способы упрощения и интеграции знаний об исследуемом процессе. Процедура взаимодействия с модулем следующая: определение факторов; выбор плана; генерация рабочей таблицы для сбора и записи данных; подбор модели; интерпретация результатов. Все вместе позволяет уменьшить время исследования, снизить общие затраты и в целом повысить производительность. Модуль « Анализ временных рядов» содержит описательные методы; процедуры сглаживания рядов, сезонной декомпозиции и прогнозирования. Данный модуль помогает увидеть чистую картину динамических данных. Целесообразно начать работу с описательных методов, чтобы получить первое визуальное представление. Затем можно сделать более точное описание динамического ряда, учитывая сезонные эффекты, циклические изменения, тренды, ошибки, выбросы или точки излома в ваших данных. Результаты представляются в табличной форме или на удобных для восприятия графиках. Рисунок 11 – Меню Describe содержит методы анализа по одной и множеству переменных, процедуры подбора распределений, табуляции и кросс табуляции данных Если приходится иметь дело с данными из области финансов, STATGRAPHICS Plus for Windows предоставляет возможность определить оптимальное управление капиталом. А если требуется преобразовать данные для лучшей подгонки модели, то для этого существует широкий спектр встроенных функций, например преобразования Бокса Кокса. В модуле предусмотрена также возможность автоматического учета инфляционных факторов! Модуль «Многомерные методы» предназначен для изучения и раскрытия взаимоотношений множества факторов (переменных). Если пользователь занимается исследованиями в физике, социологии, медицине или других областях, где объекты исследования характеризуются большим числом признаков, данный модуль поможет сортировать и группировать данные, определять отношения между переменными, выдвигать и проверять различные гипотезы. Для этого в модуле функционирует пять мощных процедур, обеспечивающих проведение Кластерного анализа, анализа по методу Главных Компонент, Факторного, Дискриминантного и Канонического Корреляционного анализа. Расширенный регрессионный анализ, кроме базисных процедур регрессионного анализа, включает различные калибровочные модели, процедуры сравнения линий регрессии, отбора наилучших регрессионных моделей, нелинейную множественную регрессию, ридж регрессию и логистическую регрессию. Требуется ли создать комплексную модель множественной регрессии, или рассмотреть и оценить лабораторные методы, или просто попытаться выбрать лучшую регрессионную модель, — все это представлено в прекрасно организованном модуле расширенного регрессионного анализа. Все перечисленные выше модули интегрируются в систему и полностью наследуют ее свойства. Модульная структура STATGRAPHICS Plus for Windows позволяет пользователю приобретать только то, что ему необходимо. Учитывая сравнительно невысокую стоимость Базовой Системы (например, по отношению к известному пакету SPSS), это позволяет существенно сэкономить средства. 3. Применение стандартных статистических функций в MS Excel. Применение статистических функций облегчает пользователю статистический анализ данных. Количество доступных статистических функций в седьмой версии программы увеличилось, и можно утверждать, что по спектру доступных функций Excel сегодня почти не уступает специальным программам обработки статистических данных. Для того чтобы иметь возможность использовать все статистические функции, следует загрузить надстройку Пакет анализа. Основу статистического анализа составляет исследование совокупностей и выборок. Выборка представляет собой подмножество совокупности. В качестве примера выборки можно привести опросы общественного мнения. Исследуя выборки с помощью вычисления отклонений и отслеживания взаимосвязей с генеральной совокупностью, можно проследить, насколько репрезентативна выборка. Целый ряд статистических функций Excel предназначен для анализа вероятностей. Ниже приведено описание некоторых наиболее распространенных функций. FРАСП Синтаксис: FРАСП(х,степени_свободы1,степени_свободы2) Результат: F-распределение вероятности. Эту функцию можно использовать, чтобы определить, имеют ли два множества данных различные степени плотности. Например, можно исследовать результаты тестирования мужчин и женщин, окончивших высшую школу, и определить, зависит ли разброс результатов от пола. Аргументы: х - значение, для которого вычисляется функция; степени_свободы1 - числитель степеней свободы; степени_свободы2 - знаменатель степеней свободы. ВЕРОЯТНОСТЬ Синтаксис: ВЕРОЯТНОСТЬ(х_интервал, интервал_вероятностей, нижний_предел, верхний_предел) Результат: Значение вероятности того, что значение из интервала находится внутри заданных пределов. Вели аргумент верхний_предел не задан, то возвращается значение вероятности того, что значения в аргументе х_интервал равны значению аргумента нижний_предел. Аргументы: х_интервал- интервал числовых значений х; интервал_вероятностей- множество вероятностей возникновения значений, входящих в аргумент х_интервал; нижний_предел- нижняя граница значения, для которого вычисляется вероятность; верхний_предел- необязательная верхняя граница значения, для которого требуется вычислить вероятность. ДИСП Синтаксис: ДИСП(число1, число2, ...) Результат: Дисперсия выборки. Аргументы рассматриваются как выборка из генеральной совокупности. Аргументы: число1,число2,... - не более 30 аргументов; текстовые, логические и пустые поля приводят к ошибке. ДИСПР Синтаксис: ДИСПР(число1,число2, ...) Результат: Дисперсия генеральной совокупности. Аргументы представляют всю генеральную совокупность. Аргументы: число1,число2,... - не более 30 аргументов; текстовые, логические и пустые поля приводят к ошибке. ДИСПА Синтаксис: ДИСПА(значение1, значение2, ...) Результат: Дисперсия выборки. Аргументы рассматриваются как выборка из генеральной совокупности, содержащей наряду с числовыми и логические значения, а также текст. Аргументы: См. описание функции СТАНДОТКЛОНА. ПРИМЕЧАНИЕ Вычисления производятся по той же формуле, что и в функции ДИСП, однако учитываются ячейки с текстовыми и логическими значениями. ДИСПРА Синтаксис: ДИСПРА(значение1,значение2,...) Результат: Дисперсия генеральной совокупности. Аргументы представляют всю генеральную совокупность. Аргументы: См. описание функции СТАНДОТКЛОНА. ПРИМЕЧАНИЕ Вычисления производятся по той же формуле, что и в функции ДИСПР, однако учитываются ячейки с текстовыми и логическими значениями. ДОВЕРИТ Синтаксис: ДОВЕРИТ(альфа, станд_откл, размер) Результат: Доверительный интервал для среднего генеральной совокупности. Доверительный интервал - окрестность среднего выборки (интервал, содержащий значение среднего выборки, равноудаленное от концов интервала). Например, заказав товар по почте, вы можете определить с конкретным уровнем надежности самую раннюю и самую позднюю даты его прибытия. Аргументы: альфа - уровень значимости, используемый для вычисления уровня надежности (уровень надежности равен 100*(1 - альфа)%\ другими словами, значение альфа, равное 0,05, означает уровень надежности, равный 95%); станд_откл - стандартное отклонение генеральной совокупности для интервала данных (предполагается известным); размер - размер выборки. КВАДРОТКЛ Синтаксис: КВАДРОТКЛ(число1, число2, ...) Результат: Сумма квадратов отклонений точек данных от их среднего. Аргументы: число1, число2, ... - от 1 до 30 аргументов, для которых вычисляется сумма квадратов отклонений; в функции КВАДРОТКЛ вместо аргументов можно использовать массив или ссылку на массив. КОРЕЛ Синтаксис: КОРЕЛ(массив1, массив2) Результат: Коэффициент корреляции между интервалами ячеек аргументов массив1 и массив2. Коэффициент корреляции используется для определения наличия взаимосвязи между двумя свойствами. Например, можно установить зависимость между средней температурой в помещении и наличием кондиционера. Аргументы: массив1 - первый массив интервала данных; массив2 - второй массив интервала данных. Мы привели лишь часть наиболее распространенных функций. Информацию о других функциях пользователь может найти в справочной подсистеме. |