Главная страница
Навигация по странице:

  • 1 Неспециализированные программы

  • 2 Специализированные статистические программы Оконно-кнопочные системы

  • Статистические среды

  • Из истории S и R

  • Применение, преимущества и недостатки R

  • Задачи анализа данных

  • Описательное исследование

  • Описательное (дескриптивное

  • Коррелятивный анализ

  • Каузальный анализ

  • Лекция 01 Данные в экономике. Лекция 01. Данные в экономике 1 Понятие анализа данных 1 2 измерительные шкалы 3


    Скачать 398.64 Kb.
    НазваниеЛекция 01. Данные в экономике 1 Понятие анализа данных 1 2 измерительные шкалы 3
    Дата04.07.2019
    Размер398.64 Kb.
    Формат файлаdocx
    Имя файлаЛекция 01 Данные в экономике.docx
    ТипЛекция
    #83648
    страница6 из 6
    1   2   3   4   5   6

    5 ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ для РАБОТЫ С ДАННЫМИ



    В принципе, обрабатывать данные можно и без компьютера. Так поступали в те годы, когда компьютерная техника была недоступна. Однако многие статистические расчеты настолько тяжеловесны, что уже в XIX веке стали придумывать способы их автоматизации.
    1 Неспециализированные программы

    Почти в любом компьютере с предустановленной системой есть программа-калькулятор. Такая программа обычно умеет выполнять четыре арифметических действия, часто — считать квадратные корни и степени, иногда логарифмы. В принципе, этого достаточно для того, чтобы делать простейшую обработку: считать среднее значение, стандартное отклонение, некоторые тесты.

    Вообще говоря, для того чтобы делать тесты, кроме калькулятора потребуются еще и статистические таблицы, из которых можно узнать примерные значения так называемых статистик — величин, характеризующих данные в целом. Таблицы используются потому, что точный (по-английски «exact») подсчет многих статистик слишком сложен, порой даже для продвинутых компьютерных программ, поэтому используются оценочные («estimated») значения. Статистические таблицы можно найти во многих книгах по классической статистике, они также «встроены» во многие специализированные программы.

    Главный недостаток калькулятора — сложность работы с сериями чисел, в то время как обычно данные как раз «идут» сериями (колонками, векторами). Чтобы работать с сериями более эффективно (и не только для этого), были придуманы электронные таблицы. Объяснять, как они устроены, наверное, не нужно. Сила электронных таблиц прежде всего в том, что они помогают визуализировать данные.

    Глядя в электронную таблицу, можно сразу понять, как выглядят данные в целом, и «на глазок» оценить их основные параметры. Это очень полезно. Кроме визуализации, программы электронных таблиц снабжены развитым инструментарием для ввода и преобразования данных — автодополнением, автокопированием, сортировкой и т. п. Однако большинство таких программ имеет своеобразное «родимое пятно» — они создавались в основном для офисного применения и были изначально ориентированы на бухгалтерские задачи. Для обработки данных нужен гораздо более специализированный инструмент. Конечно, развитые программы электронных таблиц, такие как MS Excel, Gnumeric или OpenOffice.org Calc, имеют, среди прочего, набор статистических функций. Но поскольку это — не основной компонент, на статистику в этих программах традиционно обращается мало внимания. Набор статистических тестов невелик, многие методы, особенно многомерные, отсутствуют, реализация (то есть как именно идут внутри программы сами вычисления) часто далека от оптимальной, нет специализированной системы отчетов, много неудобных ограничений, возможны ошибки, которые будут исправляться не слишком быстро, опять-таки потому, что статистика — не первоочередная функция электронных таблиц.

    Кроме того, базовый принцип электронных таблиц — визуализация данных — имеет и свои оборотные стороны. Что, если данные не помещаются в окне? В этом случае их надо будет прокручивать или скрывать часть ячеек. И то, и другое оказывает пользователю медвежью услугу, потому что он рассчитывал на облегчение восприятия данных, в то время как программа, скорее, затрудняет его. Или другой пример — надо провести операции с тремя несмежными столбцами. Сделать это через выделение нельзя, потому что выделение всегда одного типа (да и буфер обмена очень часто всего один), приходится делать много движений мышкой с большим риском ошибиться. И уж совсем никуда не годится графическая система, если надо сочетать методы обработки каким-нибудь сложным образом.

    Выход — в пользовании специализированными статистическими программами.
    2 Специализированные статистические программы

    Оконно-кнопочные системы

    Есть две группы специализированных статистических программ. Первые не особенно отличаются внешне от электронных таблиц, однако снабжены значительно большим арсеналом доступных статистических приемов. Кроме того, у них традиционно мощная графическая часть (возможных графиков больше, и управление ими более гибкое), а часто и подсистема подготовки отчетов. Многие такие программы имеют значительно меньше ограничений, чем электронные таблицы.

    Очень распространена в России относящаяся к этой группе система STATISTICA. Как сказано выше, она отличается мощной графической частью, то есть имеет множество возможных вариантов графического вывода, которые при этом довольно гибко настраиваются, так что количество «стандартных» графиков можно смело увеличить в несколько раз. Другим, и очень серьезным, преимуществом STATISTICA является наличие переведенной на русский язык системы помощи, свободно доступной в Интернете. Эта система может служить заодно и руководством по статистике, поскольку там освещены и общие вопросы. Издано немало книг, посвященных STATISTICA. Надо, однако, заметить, что популярным этот пакет является в основном только в России. Весьма редко можно встретить ссылки на обработку данных этой системой в статьях из ведущих научных (в основном англоязычных) журналов, и это несмотря на то, что система делается в Америке. Поэтому легко можно представить проблемы с обменом данными. Кроме того, как и у всех визуальных систем, однажды проведенное исследование нелегко повторить, если, скажем, появились новые данные. Гибкость STATISTICA велика, но только в пределах так называемых модулей. Если надо скомбинировать работу нескольких модулей, то придется отойти от графического подхода — например, начать писать макросы. Алгоритмы вычисления в STATISTICA, естественно, закрыты, поэтому иногда приходится проводить целое исследование, чтобы выяснить, что на самом деле в данном случае делает программа. К тому же к системе в свое время было немало претензий по поводу «быстрых и грязных» алгоритмов работы, и есть подозрение, что ситуация не слишком изменилась.

    Другой программой, популярной в свое время на российском рынке, является система STADIA. Написанная русскоязычными авторами, она отличается продуманным интерфейсом и очень хорошей системой помощи. К сожалению, это тоже закрытая программа. Немного похожа на STADIA программа PAST. Изначально она предназначалась для специализированной обработки данных в геологии, но затем функции значительно расширились, и в сейчас в PAST представлены практически все широко распространенные средства анализа данных. Графическая часть PAST небогата, но достаточна для базового исследования. Следует отметить, что, в отличие от двух предыдущих программ, PAST распространяется бесплатно.

    SPSS и MiniTab широко используются за рубежом, однако в России эти системы не слишком распространены. Общий интерфейс их схож со STATISTICA, хотя имеется и множество своих особенностей, например в подсистемах генерации отчетов. Нужно упомянуть также StatGraphics, который был доступен в России еще со времен господства MS-DOS, а в настоящее время приобрел развитый графический интерфейс и стал похож на остальные программы этой группы.
    Статистические среды

    Эта группа программ использует в основном интерфейс командной строки. Пользователь вводит команды, система на них отвечает. Звучит это просто, однако сами эти программы — одни из самых сложных систем обработки. Вообще говоря, командный интерфейс имеет немало недостатков. Например, пользователь лишен возможности выбрать тип обработки из списка (меню), вместо этого он должен помнить, какие типы обработки доступны. Кроме того, ввод команд схож (а иногда и неотличим) от настоящего» программирования, так что для работы с подобными системами нужны некоторые навыки программиста (или достаточно смелости, для того чтобы эти навыки приобрести по ходу дела). Зато пользователь получает полный контроль над системой: он может комбинировать любые типы анализа, записывать процедуры в скрипты, которые можно запустить в любое время, модифицировать вывод графиков, сохранять их в любые графические форматы, легко писать расширения для системы, а если она к тому же еще имеет открытый код, то и модифицировать саму систему (или, по крайней мере, легко выяснять, как именно работают вычислительные алгоритмы).

    Одна из наиболее продвинутых систем этого плана — это SAS. Это коммерческая, очень мощная система, обладающая развитой системой помощи и имеющая долгую историю развития. Создавалась она для научной и экономической обработки данных и до сих пор является одним из лидеров в этом направлении. Написано множество книг, описывающих работу с SAS и некоторые ее алгоритмы. Вместе с тем система сохраняет множество рудиментов 70-х годов, и пользоваться ей поначалу не очень легко даже человеку, знакомому с командной строкой и программированием. А стоимость самой системы просто запредельная — многие тысячи долларов!
    Из истории S и R

    R — это среда для статистических расчетов. R задумывался как свободный аналог среды S-Plus, которая, в свою очередь, является коммерческой реализацией языка расчетов S. Язык S — довольно старая разработка. Он возник еще в 1976 году в компании BellLabs и был назван, естественно, «по мотивам» языка С. Первая реализация S была написана на FORTRAN и работала под управлением операционной системы GCOS. В 1980 г. реализация была переписана под UNIX, и с этого момента S стал распространяться в основном в научной среде.

    Начиная с третьей версии (1988 г.), коммерческая реализация S называется S-Plus. Последняя распространялась компанией Insightful, а сейчас распространяется компанией TIBCO Software. Версии S-Plus доступны под Windows и различные версии UNIX — естественно, за плату, причем весьма и весьма немаленькую (версия для UNIX стоит порядка $6500). Собственно, высокая цена и сдерживала широкое распространение этого во многих отношениях замечательного продукта. Тут-то и начинается история R.

    В августе 1993 г. двое молодых новозеландских ученых анонсировали свою новую разработку, которую они назвали R (буква «R» была выбрана просто потому, что она стоит перед «S», тут есть аналогия с языком программирования C, которому предшествовал язык B). По замыслу создателей (это были RobertGentleman и RossIhaka), это должна была быть новая реализация языка S, отличающаяся от S-Plus некоторыми деталями, например обращением с глобальными и локальными переменными, а также работой с памятью. Фактически они создали не аналог S-Plus, а новую «ветку» на «дереве S» (многие вещи, которые отличают R от S-Plus, связаны с влиянием языка Scheme). Проект вначале развивался довольно медленно, но когда в нем появилось достаточно возможностей, в том числе уникальная по легкости система написания дополнений (пакетов), все большее количество людей стало переходить на R с S-Plus. Когда же, наконец, были устранены свойственные первым версиям проблемы работы с памятью, на R стали переходить и «любители» других статистических пакетов (прежде всего тех, которые имеют интерфейс командной строки:SAS, Stata, SYSTAT). Количество книг, написанных про R, за последние годы выросло в несколько раз, а количество пакетов уже приближается к трем с половиной тысячам!
    Применение, преимущества и недостатки R

    Коротко говоря, R применяется везде, где нужна работа с данными. Это не только статистика в узком смысле слова, но и «первичный» анализ (графики, таблицы сопряженности) и продвинутое математическое моделирование. В принципе, R может использоваться и там, где в настоящее время принято использовать специализированные программы математического анализа, такие как MATLAB или Octave. Но, разумеется, более всего его применяют для статистического анализа — от вычисления средних величин до вейвлет-преобразований и временных рядов. Географически R распространен тоже очень широко. Трудно найти американский или западноевропейский университет, где бы не работали с R. Очень многие серьезные компании (скажем, Boeing) устанавливают R для работы.

    У R два главных преимущества: неимоверная гибкость и свободный код. Гибкость позволяет создавать приложения (пакеты) практически на любой случай жизни. Нет, кажется, ни одного метода современного статистического анализа, который бы не был сейчас представлен в R. Свободный код — это не просто бесплатность программы (хотя в сравнении с коммерческими пакетами, продающимися за совершенно безумные деньги, это, конечно, преимущество, да еще какое!), но и возможность разобраться, как именно происходит анализ, а если в коде встретилась ошибка — самостоятельно исправить ее и сделать исправление доступным для всех.

    У R есть и немало недостатков. Самый главный из них — это трудность обучения программе. Команд много, вводить их надо вручную, запомнить все трудно, а привычной системы меню нет. Поэтому порой очень трудно найти, как именно сделать какой-нибудь анализ. Если функция известна, то узнать, что она делает, очень легко, обычно достаточно набрать команду help(название функции). Увидеть код функции тоже легко, для этого надо просто набрать ее название без скобок или (лучше) ввести команду getAnywhere (название функции). А вот что делать, если «задали» провести, скажем, дисперсионный анализ, а функция неизвестна? (См. ответ в конце главы.)

    Не стоит забывать, однако, что сила R — там же, где его слабость. Интерфейс командной строки позволяет делать такие вещи, которых рядовой пользователь других статистических программ может достичь только часами ручного труда. Вот, например, простая задача: требуется превратить выборку, состоящую из цифр от 1 до 9, в таблицу из трех колонок (допустим, это были данные за три дня, и каждый день делалось три измерения). Чтобы сделать это в программе с визуальным интерфейсом, скажем в STATISTICA, требуется: (1) учредить две новые переменные, (2–3) скопировать дважды кусок выборки в буфер, (4–5) скопировать его в одну и другую переменную и (6) уничтожить лишние строки. В R это делается одной командой:

    > b <- matrix(1:9, ncol=3)

    Второй недостаток R — относительная медлительность. Некоторые функции, особенно использующие циклы, и виды объектов, особенно списки и таблицы данных, «работают» в десятки раз медленнее, чем их аналоги в коммерческих пакетах. Но этот недостаток преодолевается, хотя и медленно. Новые версии R «умеют» делать параллельные вычисления, создаются оптимизированные варианты подпрограмм, работающие много быстрее, память в R используется все эффективнее, а вместо циклов рекомендуется применять векторизованные вычисления (см. приложение о программировании в R).

    6 Классификация задач анализа данных и методов исследования




    С понятием данных я надеюсь мы разобрались. Теперь подумаем, что вкладывается в понятие «анализ», какие задачи предполагается решать, выполняя анализ данных. Обратимся к слайду. Здесь мы видим перечислены основные задачи, решаемые при проведении анализа.
    Задачи анализа данных:

    1) классификация,

    2) группировка,

    3) прогнозирование,

    4) нахождение зависимостей,

    5) визуализация.
    В зависимости от решаемых задач разработаны и используются различные методы анализа.



    Описательное исследование имеет следующие цели:

    • дать описание групп – осуществление группировки данных;

    • определить долю отдельных групп в генеральной совокупности,

    • определить различные характеристики выборки (генеральной совокупности);

    • определить степень связи отдельных характеристик выборки (совокупности);

    • осуществить определенные прогнозы по объекту исследования

    Описательное (дескриптивное) исследование может быть как качественным, так и количественным. В данном исследовании могут совмещаться как числовые, так и качественные данные, которые в ходе исследования могу быть объединены, так и разделены, в зависимости, от того какая характеристика программы оценивается. Данные, полученные в ходе описательного исследования, могут группироваться в таблицы, графики, а также интерпретироваться в описательной форме. Дескриптивное исследование позволяет придавать данным более удобные для проведения оценки программ вид. Данный вид исследования оптимизирует коллекцию данных и методы оценки, с помощью нахождения статистических характеристик и взаимосвязей между данными, что позволяет проводить оценивание более эффективными способами.

    Коррелятивный анализ

    (англ. Relation) – выявляет и анализирует взаимную связь (отношения) между различными показателями. Виды корреляции:

    - положительная (прямая связь);

    - отрицательная (обратная связь);

    - нулевая (отсутствие связи).

    Коррелятивный анализ. Считается, что переменные коррелируют, если между ними существует какая-либо взаимосвязь. Это подразумевает сам термин «корреляция» : «ко» означает взаимное действие, а «реляция» (от англ. relation) — связь, отношение.

    Необходимость корреляционного анализа часто возникает, если по практическим или этическим причинам нельзя провести эксперимент.

    Каузальный анализ проверяет гипотезы относительно причинно-следственных связей.

    В основе данного исследования лежит стремление понять какое-нибудь явление на основе использования логики типа: «Если X, то затем Y».

    Каузальный анализ. Каузальный анализ — проверяет гипотезы относительно причинно-следственных связей. В основе данного исследования лежит стремление понять какое-нибудь явление на основе использования логики типа: «Если X, то затем Y». Факторы, которые вызывают какие-то изменения, называются независимыми переменными, в то время как переменные, изменяющиеся под воздействием этих факторов, называются зависимыми переменными.

    Данный вид анализа применяется, когда речь идет о диагностике проблем, выявлении будущего влияния одних переменных на другие. Наличие причинно-следственных связей означает, что наличие изменений меняет вероятностные характеристики последствий. В процессе данного анализа выявляются связи между потоками непосредственных событий, в прошлом, настоящем и будущем, а также их последствиями.

    Однако при анализе данных редко используется один из вышеописанных методов. Чаще всего используются различные комбинации из трех предложенных выше методов. Такой подход позволяет оценить объект исследования с разных и выявить ее различные характеристики.
    1   2   3   4   5   6


    написать администратору сайта