Главная страница

Программный пакет Statistica


Скачать 1.67 Mb.
НазваниеПрограммный пакет Statistica
Дата08.12.2022
Размер1.67 Mb.
Формат файлаrtf
Имя файла1600222.rtf
ТипДокументы
#835416


Введение
Окружающий нас мир насыщен информацией — разнообразные потоки данных окружают нас, захватывая в поле своего действия, лишая правильного восприятия действительности. Не будет преувеличением сказать, что информация становится частью действительности и нашего сознания.

Без адекватных технологий анализа данных человек оказывается беспомощным в жестокой информационной среде и скорее напоминает броуновскую частицу, испытывающую жестокие удары со стороны и не имеющую возможности рационально принять решение.

Статистика позволяет компактно описать данные, понять их структуру, провести классификацию, увидеть закономерности в хаосе случайных явлений. Удивительно, что даже простейшие методы визуального и разведочного анализа данных позволяют существенно прояснить сложную ситуацию, первоначально поражающую нагромождением цифр.

Идея состоит в том, чтобы вывалить из мешка различные методы, написав своего рода популярную энциклопедию всевозможных методов анализа данных, и позволить пользователю, применяя систему STATISTICA, свободно экспериментировать с этими методами.
Глава 1. Программный пакет Statistica
Statistica программный пакет для статистического анализа, разработанный компанией StatSoft, реализующий функции анализа данных, управления данных, добычи данных, визуализации данных с привлечением статистических методов.

Существуют различные варианты пакета в зависимости от целей и задач пользователя:

  • однопользовательская версия (single-user);

  • сетевая версия (concurrent network) — для использования в локальных вычислительных сетях;

  • enterprise-версия — для использования в крупных организациях;

  • веб-версия — для использования в крупных сетях через веб-браузер.

Также существуют различные комплекты поставки в зависимости от включённых функций:

  • Base — набор основных статистик и методов для разведочного анализа.

  • Advanced — включает все возможности продукта Base, а также модули углубленных линейных и нелинейных моделей, многомерных технологий анализа данных, анализа мощности и интервального оценивания.

  • Quality Control (контроль качества) — включает методы управления качеством данных, а также контрольные карты презентационного качества.

  • Automated Neural Networks — включает методы для нейросетевых исследований.

  • Data Miner — включает методы добычи данных.

  • Text Miner — дополнительная возможность для добычи данных над текстами.

  • Process Optimization — возможности проводить мониторинг процессов, идентифицировать и предотвращать проблемы, относящиеся к контролю качества на производстве.

  • Monitoring and Alerting Server (MAS) (сервер мониторинга и предупреждений) — средства для централизованного автоматизированного мониторинга различных процессов и параметров продуктов

Пакет обладает широкими графическими возможностями, позволяет выводить информацию в виде различных типов графиков (включая научные, деловые, трёхмерные и двухмерные графики в различных системах координат, специализированные статистические графики — гистограммы, матричные, категорированные графики и др.), все компоненты графиков настраиваются.



Глава 2. Описательные статистики и графики




Программа вычисляет практически все используемые описательные статистики общего характера: медиану, моду, квартили, заданные пользователем процентили, среднее значение и стандартное отклонение, квартильный размах, доверительные интервалы для среднего, асимметрию и эксцесс (и их стандартные ошибки), гармоническое и геометрическое среднее, а также многие специальные описательные статистики.

Как и во всех других модулях системы STATISTICA, в разведочном анализе данных доступны разнообразные графики и диаграммы, в т.ч. различные виды диаграмм размаха и гистограмм, гистограммы двумерных распределений (трехмерные и категоризованные), двух- и трехмерные диаграммы рассеяния с помеченными подмножествами данных, нормальные и полунормальные вероятностные графики и графики с исключенным трендом, графики квантиль-квантиль, вероятность-вероятность и т.д.

Имеется набор критериев для подгонки нормального распределения к данным (критерии Колмогорова-Смирнова, Лилиефорса и Шапиро-Уилкса).



Глава 3. Группировка




Практически все описательные статистики и графики могут быть построены для данных, категоризованных (сгруппированных) по значениям одной или нескольких группирующих переменных.

Например, с помощью нескольких щелчков мыши можно сгруппировать имеющиеся данные о людях по полу и возрасту, а затем просмотреть категоризованные гистограммы, диаграммы размаха, нормальные вероятностные графики, диаграммы рассеяния и т.д. В случае, если было выбрано более двух категоризованных переменных, автоматически будет построен каскад соответствующих графиков.

Имеется возможность производить категоризацию по числовым (непрерывным) переменным, например, можно потребовать, чтобы значения переменной были разбиты на заданное число интервалов; с помощью инструмента перекодировки можно в реальном времени задать специальный способ перекодировки переменной (возможна категоризация практически любой сложности, заданная через соотношения между любыми переменными файла данных).

В дополнение к этому, в системе имеется специализированная процедура иерархической группировки, позволяющая осуществлять категоризацию данных по многим (до шести) переменным и строить различные категоризованные графики, описательные статистики и корреляционные матрицы для подгрупп (пользователь может в интерактивном режиме игнорировать некоторые факторы в полной таблице группировок и исследовать статистики по маргинальным таблицам).

Многочисленные возможности форматирования и расстановки меток позволяют получать таблицы и отчеты презентационного качества, содержащие длинные метки и описания переменных. При этом важно отметить, что процедура группировки выполняется для чрезвычайно больших объемов данных (например, по одной категоризующей переменной можно построить до 300 групп), а ее результаты содержат все соответствующие статистики дисперсионного анализа (включая полные таблицы ANOVA, критерии проверки гипотез типа критерия Левена однородности дисперсии, семь различных апостериорных (post-hoc) критериев и т.д.).

Как и во всех других модулях системы STATISTICA, для достижения высокой - не имеющей аналогов в сравнении с другими пакетами - точности результатов здесь можно производить вычисления с повышенной точностью (если нужно – с четырехкратной).

В дополнение к большому числу готовых статистических графиков пользователь может самостоятельно задавать различные типы визуализации исходных данных, описательных статистик, взаимосвязей между статистиками, группировок и категоризаций с помощью средств прямого доступа (point-and-click), что позволяет существенно упростить задачу. Средства графического разведочного анализа объединены с собственно статистическими процедурами, что существенно облегчает визуальный анализ данных (например, в интерактивном режиме можно удалять выбросы, выделять подмножества данных, осуществлять сглаживание и подгонку функций, а богатые средства работы с кистью позволяют легко выявлять и/или выделять нужные данные).



Глава 4. Корреляции




В системе имеется большой набор методов для исследования корреляций между переменными. Прежде всего, могут быть вычислены все основные характеристики связи между переменными, в том числе: коэффициент корреляции Пирсона r, коэффициент ранговой корреляции Спирмена R, тау (b, c) Кендалла, Гамма, тетрахорический r, Фи, V Крамера, коэффициент сопряженности C, D Соммера, коэффициенты неопределенности, частные и получастные корреляции, автокорреляции, различные меры расхождения и т.д.

Нелинейные корреляции, регрессия для цензурированных данных и другие более специализированные меры корреляции реализованы в модулях STATISTICA Advanced Linear/Non-Linear Models: Нелинейное оценивание и Анализ выживаемости.

Корреляционные матрицы могут быть вычислены с построчным, попарным удалением пропусков или с подстановкой среднего вместо пропущенных значений. Как и во всех других модулях системы STATISTICA, для достижения высокой - не имеющей аналогов среди других пакетов - точности результатов здесь можно производить вычисления с повышенной точностью (если нужно – с четырехкратной). Как и все численные результаты, корреляционные матрицы в системе STATISTICA выводятся в виде таблиц, имеющих богатые возможности форматирования данных (см. ниже) и визуализации численных результатов; так, можно "указать" на конкретный корреляционный коэффициент и вызвать для него контекстное меню всевозможных "описательных диаграмм" (диаграммы рассеяния с доверительными интервалами, различные объемные гистограммы двумерных распределений, вероятностные графики и т.д.).

Богатые средства закрашивания позволяют выделять (или, наоборот, затенять) отдельные точки на диаграмме рассеяния и таким образом оценивать их влияние на положение линии регрессии (и других подогнанных кривых).

Таким образом исследуются, например, выбросы или резко выделяющиеся наблюдения.

Поддерживаются разнообразные форматы глобального вывода корреляций; значимые коэффициенты корреляции могут автоматически выделяться цветом, каждую ячейку таблицы результатов можно расширить и посмотреть число n наблюдений, по которым вычислен коэффициент и уровень значимости p, можно запросить подробные результаты, включающие все описательные статистики (попарные средние и стандартные отклонения, B-веса, пересечения, и т.д.).

Как и все численные результаты, корреляционные матрицы выводятся в виде таблиц, поддерживающих операцию масштабирования и интерактивно управляемый формат вывода значащих цифр (например, от +0.4 до +0.41358927645193); таким образом, матрицы больших размеров можно сжимать (с помощью операции уменьшения, либо изменением формата вывода, что делается перетягиванием границ столбцов с помощью мыши). Это облегчает зрительное восприятие и, в частности, помогает быстро находить коэффициенты, превосходящие заданную величину или имеющие определенный уровень значимости (соответствующие ячейки в таблице результатов будут помечены красным цветом).
Глава 5. Методы множественной регрессии

В модуле Множественная регрессия реализован полный набор методов линейной регрессии. Эти методы включают простую, множественную, пошаговую регрессию (с пошаговым/блоковым включением или исключением предикторов), иерархическую, нелинейную (полиномиальную, экспоненциальную, логарифмическую и т.д.) и гребневую (ридж) регрессию, с включением или без включения константы (свободного члена), модели взвешенных наименьших квадратов.

Программа вычисляет полный набор статистик и дополнительных анализов, включая полную таблицу регрессии (со значениями стандартной ошибки для B, Beta и свободного члена, коэффициента детерминации R2 и скорректированного R2 для моделей с константой и без нее и таблицей дисперсионного анализа), матрицы частных и получастных корреляций, корреляции и ковариации коэффициентов регрессии, матрицу выметания (обратную матрицу), статистику Дарбина-Уотсона d, расстояния Махаланобиса и Кука, удаленные остатки, доверительные интервалы для предсказанных значений и многие другие статистики.

Предсказанные значения и остатки


Широкие возможности анализа остатков и выбросов предоставляют многочисленные графики: диаграммы рассеяния, гистограммы, нормальные и полунормальные вероятностные графики, графики с удаленным трендом, графики частных корреляций, различные построчные графики и диаграммы остатков и выбросов и др.

Значения зависимой переменной для отдельных наблюдений можно просмотреть визуально с помощью разведочных пиктографиков и других многомерных графиков, доступных непосредственно из меню таблицы результатов. Остаточные и предсказанные значения можно автоматически добавлять к текущему файлу данных. Процедура прогнозирования позволяет проводить анализ типа "что-если" и интерактивно вычислять предсказанные значения по задаваемым с клавиатуры значениям предикторов.

Внутригрупповые статистики


В системе STATISTICA можно проанализировать чрезвычайно большие планы (более 500 переменных). Кроме того, имеются дополнительные средства (специальный аппарат) для сверхбольших задач регрессии (с тысячами переменных), двуступенчатый метод наименьших квадратов, преобразования Бокса-Кокса и Бокса-Тидвелла.

Система STATISTICA имеет также специальные модули общего нелинейного оценивания с помощью которых, можно оценить практически любую определенную пользователем нелинейную модель и где имеется целый ряд предопределенных моделей, включая логит-, пробит- модели и др. В системеSTATISTICA также имеется дополнительный модуль SEPATH - Моделирование структурными уравнениями, который позволяет анализировать чрезвычайно большие матрицы корреляций, ковариаций и моментов (для моделей со свободным членом).

Глава 6. Непараметрические статистики




Модуль Непараметрическая статистика содержит полный набор непараметрических статистик, включая все стандартные тесты и некоторые специальные прикладные статистики, в частности, критерий Вальда-Вольфовица, U тест Манна-Уитни (с точными вероятностями вместо нормальных аппроксимаций для малых выборок), критерии Колмогорова-Смирнова, критерий Вилкоксона парных сравнений, ранговый дисперсионный анализ Краскела-Уоллиса, медианный тест, критерий знаков, ранговый дисперсионный анализ Фридмана, Q- критерий Кохрена, критерий МакНемара, коэффициент конкордации Кендалла, тау (b, c) Кендалла, ранговая корреляция Спирмена R, точный критерий Фишера, критерии хи-квадрат, статистики V-квадрат, Фи, Гамма, d Соммера, коэффициенты сопряженности и другие (специальные непараметрические критерии и статистики входят также в состав некоторых других модулей, см., например, Анализ выживаемости, Анализ процессов STATISTICA и др.)

Все (ранговые) критерии могут работать с совпадающими рангами и вносят поправку на малый объем выборки и совпадающие ранги. Как и во всех других модулях системы STATISTICA, процедуры всех критериев снабжены разнообразными графическими инструментами (здесь доступны различные типы диаграмм рассеяния, специальные диаграммы размаха, линейные графики, гистограммы и много других двух- и трехмерных графиков).

Глава 7. Дисперсионный анализ (ANOVA/MANOVA)



В модуле Дисперсионный анализ реализованы методы общего одномерного и многомерного дисперсионного и ковариационного анализа, которые являются частью Общих Линейных Моделей, где можно обрабатывать планы практически неограниченной сложности. Имеется возможность задавать планы непосредственно определив реальные переменные и уровни факторов, поэтому даже не очень опытные пользователи системы STATISTICA могут анализировать в этом модуле чрезвычайно сложные планы.

По умолчанию в процедурах модуля используется подход, основанный на модели средних, но пользователь может также вычислить суммы квадратов типа I (последовательные, в порядке по умолчанию или заданном пользователем), типа II или типа III; для неполных планов могут также быть исследованы гипотезы типа IV. Для планов любого типа могут использоваться фиксированные или переменные ковариаты.

Можно анализировать неполные планы (вложенные, на латинских квадратах, на греко-латинских квадратах, планы с единственным наблюдением на ячейку, случайные блочные планы и т.д.); пользователь может задать объединенные члены ошибки дисперсионного анализа. Могут быть построены апостериорные критерии для маргинальных средних или для эффектов взаимодействия (включая межгрупповые факторы, факторы повторных измерений, или и те и другие): критерий наименьшей значимой разности (НЗР), критерий Ньюмена-Кеулса, критерий множественных сравнений Дункана, критерий Шеффе, критерий Тьюки достоверно значимой разности (ДЗР), обобщенный Спьотволлом и Столайном критерий Тьюки для выборок неравного размера.

Для всех основных эффектов, взаимодействий и спланированных сравнений могут быть выведены полные статистики дисперсионного анализа; программа вычисляет также множественные таблицы классификации и SSCP-матрицы. Для всех эффектов могут быть выведены таблицы результатов, в которых отмечены цветом все значимые эффекты; в такой таблице, можно исследовать маргинальные средние или просмотреть мгновенные графики отдельных главных эффектов и взаимодействий, для чего достаточно просто дважды щелкнуть по эффекту. Для любых одно- и многомерных планов может быть проведен анализ контрастов неограниченной сложности.

Пользователь может задавать частные эффекты взаимодействия, простые эффекты, полиномиальные контрасты и экспериментировать с произвольными комбинациями коэффициентов контраста. Имеются средства, упрощающие и ускоряющие задание параметров в сложных анализах: в дополнение к функции Быстрое заполнение, позволяющей автоматизировать ввод коэффициентов контраста, имеется широкий выбор предопределенных контрастов, доступных по одному щелчку мыши (включая полиномиальные, отклонение, разность, Хельмерта, простые и повторные). При анализе неполных планов со случайно распределенными пропущенными ячейками процедура анализа контрастов автоматически отмечает все пустые ячейки и помогает пользователю строить проверяемые гипотезы.

Большую помощь при анализе оказывают богатые графические возможности модуля (автоматическое построение графиков взаимодействий, в том числе заданных пользователем каскадов графиков компонент ("срезов") для многофакторных взаимодействий, внутригрупповых распределений переменных и внутригрупповых корреляций, определенные пользователем диаграммы размаха для медиан, квартилей, средних, стандартных отклонений, стандартных ошибок и т.д. для произвольных сочетаний факторов и многие другие, см. далее). Могут быть исследованы гипотезы параллельности (т.е. отсутствия взаимодействий, включающих ковариаты); могут быть подсчитаны полные результаты одномерной и многомерной регрессии и выведены или нарисованы скорректированные средние.

Программа вычисляет также поправки Гринхауса-Гейсера и Хюнха-Фельдта для факторов повторных измерений; для таких факторов автоматически вычисляются одно- и многомерные результаты. Пользователь может исследовать SS-матрицы (сумм квадратов) гипотез и ошибок, и там, где это возможно, программа выполняет полный канонический анализ с вычислением канонических корней, собственных значений, долю дисперсии, приходящуюся на каждый корень, а также стандартизованную и нестандартизованную дискриминантную функцию.

Для визуализации результатов при исследовании гипотез и предположений в моделях дисперсионного анализа имеется большое число различных типов графиков: графики распределений, графики "ствол и листья", категоризованные и составные графики корреляций и подгоночных функций, позволяющие сравнивать соотношения между зависимыми измерениями (и/или) ковариатами по ячейкам высших порядков, графики средних против стандартных отклонений или дисперсий, обычные и категоризованные нормальные, полунормальные вероятностные графики и графики с исключенным трендом, графики корреляций внутри ячеек и т.д.

Там, где это может потребоваться, можно одним щелчком мыши получать каскады графиков, которые затем просматривать. Кроме того, имеется большой набор статистических процедур для проверки предположений: C Кохрена, критерий Хартли, критерий Бартлета, критерий Левена, M Бокса, непараметрический критерий Сена и Пури, критерий Колмогорова-Смирнова, критерий сферичности Моучли и т.д. При этом подгонку моделей структурированных средних (с константами), построенных по матрицам моментов для одной и нескольких выборок, можно осуществлять также средствами модуля SEPATH (Моделирование структурными уравнениями) системы STATISTICA, в котором можно оценивать модели MANOVA с явной неоднородностью дисперсий/ковариаций в разных группах и/или с явными структурными моделями для зависимой переменной, различными для каждой группы.

Вариант этого модуля, входящий в пакет STATISTICA Base, имеет следующие ограничения: в нем можно анализировать одномерные планы с числом межгрупповых факторов не более четырех, одним фактором повторных измерений и одной ковариатой (полная версия реализована в продукте STATISTICA Advanced).

Подгонка распределений




Опции модуля Подгонка распределений позволяют сравнивать имеющееся распределение переменной с различными теоретическими распределениями. К данным можно попытаться подогнать нормальное, прямоугольное, экспоненциальное, гамма, логнормальное, хи-квадрат распределение, распределения Вейбулла, Гомпертца, биномиальное, Пуассона, геометрическое и Бернулли.

Точность подгонки может быть оценена с помощью критерия хи-квадрат или одновыборочного критерия Колмогорова-Смирнова (при этом можно контролировать параметры подгонки); кроме того, реализованы также критерии Лиллиефорса и Шапиро-Уилкса (см. выше). Подгонку гипотетического распределения определенного типа к эмпирическому распределению можно осуществлять при помощи настраиваемых гистограмм (обычных и кумулятивных) с наложенными на них подгоночными функциями; прямо из таблиц результатов можно строить графики и гистограммы для ожидаемых и наблюдаемых частот, отклонений и других показателей.

Ряд других методов подгонки распределения реализован в модуле Анализ процессов STATISTICA – здесь можно получить оценку значений параметров по принципу максимума правдоподобия для распределений: бета, экспоненциального, экстремальных значений (типа I, Гумбеля), гамма, логнормального, Релея и Вейбулла. В этом модуле имеется возможность автоматически выбрать и подогнать распределение, в наибольшей степени согласующееся с данными, а также средства подгонки распределений через моменты (с помощью кривых Джонсона и Пирсона).

На диаграммы могут быть наложены (в виде кривых и поверхностей) графики заданных пользователем функций. Эти функции могут изображать самые разные типы распределений: бета, биномиальное, Коши, хи-квадрат, экспоненциальное, экстремальных значений, F, гамма, геометрическое, Лапласа, логистическое, нормальное, логнормальное, Парето, Пуассона, Рэлея, t (Стьюдента) и Вейбулла, а также их интегралы и обратные распределения.

программный statistica корреляция дисперсионный

Заключение


Таким образом, для решения многих других задач в области социологических и маркетинговых исследований, прогнозирования и управления качеством необходимы знания математической и экономической статистики. Принятие любого технического, финансового и производственного решения немыслимо без статистического анализа информации; выделять закономерности из случайностей, сравнивать вероятные альтернативы выбора, строить прогнозы развития процессов, обнаруживать связи и различия множества объектов возможно только и исключительно средствами математической статистики.

Статистика позволяет адекватно оценивать складывающуюся ситуацию и выявлять тенденции, принимать оперативные и стратегические решения. В условиях современной рыночной экономики статистическая информация стала важным инструментом борьбы и выживания на рынке. Поэтому пакеты статистического анализа данных являются настольным рабочим инструментом специалистов любого уровня. А для специалиста в области управления и экономики знание статистических методов обработки информации и современных компьютерных технологий, которые позволят автоматизировать громоздкие расчеты, абсолютно необходимы.

Ведущим пакетом статистического анализа является система STATISTICA, которая основана на самых современных технологиях, полностью соответствует последним достижениям в области IT, позволяет решать любые задачи в области анализа и обработки данных, идеально подходит для применения в любой области: маркетинге, финансах, страховании, экономике, бизнесе, промышленности, медицине и др.
Список используемой литературы и источников


  1. Wikipedia [Электронный ресурс]. - Электрон. дан. - [М., 2008]. - Режим доступа свобод.: http://en.wikipedia.org/wiki/

  2. Палий И.А. Прикладная статистика.- М.: Высшая школа,2004.

  3. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере / Под ред. В.Э. Фигурнова. - М.: ИНФРА-М, Финансы и статистика, 2004.

  4. Прикладная статистика: Классификация и снижение размерности: Справ. изд. М., 1989. 607 с.

  5. Айвазян С.А. Интеллектуализированные инструментальные системы в статистике и их роль в построении проблемно-ориентированных систем поддержки принятия решений // Обозрение проблем прикладной математики. Том 4, #2. М.: Наука; Изд-во "ТВП", 1997.

  6. Статистические и математические системы // Тысячи программных продуктов: Каталог: Вып. 2. М., 1995. С. 88-92.

  7. Козырев А.Н. Рынок программного обеспечения в СССР, лицензионные и авторские договоры, цены // Мир ПК. 1989. #3.


написать администратору сайта