Главная страница
Навигация по странице:

  • ЛЕКЦИЯ 7 ПРОГНОСТИКА: СОВРЕМЕННЫЕ ТЕХНОЛОГИИ 73 1. Прогностика: взгляд в будущее

  • 2. Классический прогноз

  • 3. Прогностика: современные технологии

  • Вопросы для самопроверки

  • II. CТАТИСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ДАННЫХ ЛЕКЦИЯ 8 ОСНОВЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ 1. Основные понятия статистического анализа данных

  • Интеллектуальный анализ данных


    Скачать 7.76 Mb.
    НазваниеИнтеллектуальный анализ данных
    Дата11.10.2022
    Размер7.76 Mb.
    Формат файлаpdf
    Имя файлаiad_iadl.pdf
    ТипУчебное пособие
    #726651
    страница10 из 23
    1   ...   6   7   8   9   10   11   12   13   ...   23
    Приложение 2. Учебники и монографии по теории вероятностей и математи-
    ческой статистике
    Ахтямов, А. М. Теория вероятностей. — М.: Физматлит, 2009
    Боровков, А. А. Математическая статистика, М.: Наука, 1984.
    Боровков, А. А. Теория вероятностей, М.: Наука, 1986.
    Булдык, Г. М. Теория вероятностей и математическая статистика, Мн., Высш. шк., 1989.
    Булинский, А. В., Ширяев, А. Н. Теория случайных процессов, М.: Физматлит, 2003.
    Бекарева, Н. Д. Теория вероятностей. Конспект лекций, Новосибирск НГТУ
    Баврин, И. И. Высшая математика (Часть 2 «Элементы теории вероятностей и ма- тематической статистики»), М.: Наука, 2000.
    Вентцель Е. С. Теория вероятностей. — М.: Наука, 1969. — 576 с.
    Гмурман, В. Е. Теория вероятностей и математическая статистика: Учеб. по- собие — 12-е изд., перераб.- М.: Высшее образование, 2006.-479 с.:ил (Основы наук).

    71
    Гмурман, В. Е. Руководство к решению задач по теории вероятностей и мате-
    матической статистике: Учеб. пособие — 11-е изд., перераб. — М.: Высшее образова- ние, 2006.-404 с. (Основы наук).
    Гурский Е. И. Сборник задач по теории вероятностей и математической ста-
    тистике, — Минск: Высшая школа, 1975.
    П. Е. Данко, А. Г. Попов, Т. Я. Кожевников. Высшая математика в упражнениях и задачах. (В 2-х частях)- М.: Высш.шк, 1986.
    Колемаев, В. А. и др. Теория вероятностей и математическая статистика, —
    М.: Высшая школа, 1991. http://www.iqlib.ru/book/preview/b0ce99dc4e 1741128564b81841 ae6ce0
    Колмогоров, А. Н
    Основные понятия теории вероятностей, М.: Наука, 1974.
    Коршунов, Д. А., Фосс, С. Г. Сборник задач и упражнений по теории вероятно-
    стей, Новосибирск, 1997.
    Коршунов, Д. А., Чернова, Н. И. Сборник задач и упражнений по математической
    статистике, Новосибирск. 2001.
    Кремер Н. Ш. Теория вероятностей и математическая статистика: Учебник для ВУ-
    Зов. — 2- изд., перераб. и доп.-М:ЮНИТИ-ДАНА, 2004. — 573 с.
    Кузнецов, А. В. Применение критериев согласия при математическом моделиро-
    вании экономических процессов, Мн.: БГИНХ, 1991.
    Лихолетов И. И., Мацкевич И. Е. Руководство к решению задач по высшей мате-
    матике, теории вероятностей и математической статистике, Мн.: Выш. шк., 1976.
    Лихолетов И. И. Высшая математика, теория вероятностей и математическая
    статистика, Мн.: Выш. шк., 1976.
    Лоэв М.В «Теория вероятностей», — М.: Издательство иностранной литературы,
    1962.
    Маньковский Б. Ю., Таблица вероятности
    Мацкевич И. П., Свирид Г. П. «Высшая математика. Теория вероятностей и ма-
    тематическая статистика», Мн.: Выш. шк., 1993.
    Мацкевич И. П., Свирид Г. П., Булдык Г. М. «Сборник задач и упражнений по выс-
    шей математике. Теория вероятностей и математическая статистика», Мн.: Выш. шк., 1996.
    Мейер П.-А. Вероятность и потенциалы. Издательство Мир, Москва, 1973.
    Млодинов Л. (Не)совершенная случайность
    Прохоров, А. В., В. Г. Ушаков, Н. Г. Ушаков. «Задачи по теории вероятностей»,
    Наука. М.: 1986.
    Прохоров Ю. В., Розанов Ю. А. «Теория вероятностей», — М.: Наука, 1967.
    Пугачев, В. С. «Теория вероятностей и математическая статистика», Наука.
    М.: 1979.
    Ротарь В. И., «Теория вероятностей», — М.: Высшая школа, 1992.
    Свешников А. А. и др., Сборник задач по теории вероятностей, математиче-
    ской статистике и теории случайных функций, — М.: Наука, 1970.
    Свирид, Г. П., Макаренко, Я. С., Шевченко, Л. И. Решение задач математической
    статистики на ПЭВМ, Мн., Выш. шк., 1996.
    Севастьянов Б. А., Курс теории вероятностей и математической стати-
    стик», — М.: Наука, 1982.
    Севастьянов, Б. А., Чистяков, В. П., Зубков, А. М. Сборник задач по теории веро-
    ятностей», М.: Наука, 1986.
    Соколенко А. И., Высшая математика, учебник. М.: Академия, 2002.
    Феллер, В. Введение в теорию вероятностей и её приложения.
    Хамитов, Г. П., Ведерникова, Т. И. Вероятности и статистики, БГУЭП. Иркутск.:
    2006.
    Чистяков, В. П. Курс теории вероятностей, М., 1982.
    Шейнин О. Б. Теория вероятностей. Исторический очерк
    Берлин: NG Ferlag, 2005,
    329 с.
    Ширяев, А. Н. Вероятность, Наука. М.: 1989.

    72
    ЛЕКЦИЯ 7
    ПРОГНОСТИКА: СОВРЕМЕННЫЕ ТЕХНОЛОГИИ

    73
    1. Прогностика: взгляд в будущее
    НАСТОЯЩЕГО не существует.
    Настоящее – это бесконечно малый ин- тервал времени, отторгаемый нашим сознанием от прошлого и будущего.
    Настоящее не является реальностью, это некоторый виртуальный образ, формируемый игрой человеческого разума.
    Видимое назначение разума – это обработка и анализ сенсорной информа- ции с целью формирования управляющих решений на сознательном и бессозна- тельном уровнях. Эффективность управляющих решений, определяющих не только благополучие, но и сам факт выживания homo sapiens в дарвинистском мире, определяется качеством анализа данных и формируемого на его основе прогноза.
    При наличии качественного, достоверного прогноза развития ситуации, формирование эффективного решения не представляет труда. Достаточно лишь посмотреть на последствия реализации тех или иных управляющих решений и выбрать решение, в наибольшей степени отвечающее выбранному критерию ка- чества.
    Человек прогнозирует практически всегда. Все наши планы опираются на наши доморощенные прогнозы. Если прогноз верен, то планы реализуются
    В настоящее время долгосрочные прогнозы бывают двух типов: плохие и очень плохие.
    Что же мешает построить качественный прогноз?
    Прежде всего неопределенность, существующая в исходных данных относительно объекта исследования.
    Ведь согласно принципу детерминизма Пьера-Симона
    Лапласа, динамика всех процессов определяется жесткими причинно-следственными связями типа «если – то».
    Великий всезнайка, «демон Лапласа», знающий харак- тер всех факторов влияния, смог бы спрогнозировать дина- мику развития любой системы на сколь угодно большой срок.
    Значит ли это, что неопределенность, на позволяющая получить эффективный прогноз, существует лишь в силу ог- раниченности человеческих знаний о природе вещей и их взаимодействиях?
    2. Классический прогноз
    Рассмотрим две основных технологии классического прогнозирования: экс- пертные (они же эвристические) и математические, обычно реализуемые с помо- щью средств цифровой техники.
    Насколько человек способен к строгому, количественному прогнозу. Пример на рис.1 иллюстрирует, что даже в полностью определенной ситуации с двумя простейшими факторами влияния, человеческий мозг не способен восстановить прогностическую динамику развития одномерного объекта.
    ???
    Процессы

    74
    Попытки использовать групповые экспертные методы прогнозирования также являются малоэффективными. Очевидно, что мнение лучшего эксперта бу- дет заменена в этом случае менее качественной усредненной оценкой.
    Математический аппарат традиционной прогностики включает в себя де- терминированные и статистические модели. Для его реализации, теоретически, можно воспользоваться и готовыми программными пакетами, такими, как SPSS,
    Statistica, Statgraphics, Stadia, SAS, TimeLab и др. На практике готовые шаблонные формы редко позволяют с достаточной точностью формировать эффективные прогнозы.
    Суть экстраполяционного прогноза хорошо известна и проиллюстрирована на рис. 2.
    Наличие измерений позволяет перейти к математической модели динамики состояния. Прогнозирование сводится к статистической экстраполяции процесса эволюции состояния объекта прогнозирования. При этом, в идеальном случае, ошибка прогноза плавно растет с ростом горизонта прогноза.
    Однако на практике, чаще всего, происходит то или иное скачкообразное изменения состояния объекта прогнозирования. Как правило, такой скачок проис- ходит в силу неполноты мониторинга многообразных факторов влияния. Однако имеются и другие причины.

    75
    Проблемами для построения качественного, достоверного прогноза явля- ются:
    - неполнота и низкое качество «сырых данных» (Raw Data), полученных в процессе мониторинга и используемых для построения и коррекции математиче- ских моделей;
    - малые выборки наблюдений;
    - сверхбольшие объемы наблюдений;
    - аномальные наблюдения;
    - крайне высокие требования к точности идентификации протекающих про- цессов, связанные с соизмеримостью относительного выигрыша с флуктуацион- ными характеристиками эволюции состояния объекта;
    - необходимость значительных инвестиций, обусловленных сложностью стыковки и адаптации готовых комплексных систем прогнозирования с уже раз- вернутыми средствами мониторинга;
    - закрытость алгоритмического обеспечения, как коммерческого продукта, его недоступность для оперативной адаптации со стороны пользователей.
    Специфика современных требований к системам прогнозирования состоит в сверхбольшой объем данных, разнородность и низкой структурированности дан- ных, существенной глубине анализа, сложности интерпретируемость данных, дос- тупности инструментария и др.
    3. Прогностика: современные технологии
    Проблемы формирования прогностической аналитики состоят в
    -
    - о
    о б
    б н
    н а
    а р
    р у
    у ж
    ж е
    е н
    н и
    и и
    и и
    и д
    д е
    е н
    н т
    т и
    и ф
    ф и
    и к
    к а
    а ц
    ц и
    и и
    и с
    с к
    к р
    р ы
    ы т
    т ы
    ы х
    х ф
    ф а
    а к
    к т
    т о
    о р
    р о
    о в
    в в
    в л
    л и
    и я
    я н
    н и
    и я
    я
    ;
    ;
    -
    - в
    в ы
    ы я
    я в
    в л
    л е
    е н
    н и
    и и
    и и
    и и
    и д
    д е
    е н
    н т
    т и
    и ф
    ф и
    и к
    к а
    а ц
    ц и
    и и
    и с
    с к
    к р
    р ы
    ы т
    т ы
    ы х
    х в
    в з
    з а
    а и
    и м
    м н
    н ы
    ы х
    х с
    с в
    в я
    я з
    з е
    е й
    й
    ;
    ;
    -
    - в
    в ы
    ы я
    я в
    в л
    л е
    е н
    н и
    и и
    и и
    и и
    и д
    д е
    е н
    н т
    т и
    и ф
    ф и
    и к
    к а
    а ц
    ц и
    и и
    и т
    т е
    е н
    н д
    д е
    е н
    н ц
    ц и
    и й
    й и
    и з
    з м
    м е
    е н
    н е
    е н
    н и
    и я
    я с
    с о
    о с
    с т
    т о
    о я
    я н
    н и
    и я
    я
    ,
    ,
    t
    наблюдения
    t
    наблюдения
    t
    прогноза
    Рис. 2. Технология гладкого экстраполяционного прогноза dx
    1
    – ошибка
    Гладкий
    х

    76 т
    т е
    е совпадают с традиционными задачами DM.
    На рис. 3 приведен вариант классификации задач, решаемых на основе данной методологии, а в табл. 1– некоторые варианты программных продуктов, предназначенных для их решений
    DM классы
    Системы
    Стоимость
    Предметно- ориентированные ана- литические системы
    Скрининговые системы, ИС ЛПУ, ИС врача, ИС фельдшера, инф-справ. ИС и др.
    $ 300-20000
    Статистический анализ
    SPSS,
    SAS,
    STATGRAPHICS,
    STATISTICA, STADIA
    $1000-15000
    Нейронные сети
    BrainMarker, NeuroShell, OWL
    $ 1500-8000
    Ассоциации по анало- гии
    CBR, KATE Tools, Pattern Recognition
    Workbench
    $1500 -10000
    Деревья решений
    See5/C5.0,
    Clementine,
    SIPINA,
    KnowledgeSEEKER
    $1000 -10000
    Эволюционное про- граммирование
    PolyAnalyst, NeuroShell
    $1000 -5000
    Генетические алгорит- мы
    GeneHunter
    $1000
    Алгоритмы ограничен- ного перебора
    WizWhy
    $4000
    Системы визуализации многомерных данных
    DataMiner3D
    До $1000
    Verification-driven DM
    Концепция усредненного опыта
    Discovery-driven DM
    Концепция шаблонов (patterns)
    Data Mining
    Рис. 3. Вариант классификации задач, решаемых на основе DM
    Табл. 1. Варианты программных продуктов на основе DM

    77
    Среди современных технологий прогноза, прежде всего, следует отметить технологию прецедентного анализа или метод динамических шаблонов – patterns.
    Суть метода проиллюстрирована на рис.4.
    Частным случаем такого подхода является метод ближайшего соседа.
    Конкретный пример реализации прецедентного анализа приведен на рис. 5.
    Особое значение в современной прогностике приобрели исследования в области динамики хаотических систем. Генезисом детерминированного хаоса яв-
    Рис. 4. Иллюстрация прецедентного анализа данных
    Рис. 5. Пример реализации прецедентного анализа

    78 ляется структурная неустойчивость открытых нелинейных систем в так называе- мых точках бифуркаций. Соответствующая иллюстрация приведена на рис. 6.
    Третьим перспективным направлением анализа данных и прогнозирования являются искусственные нейронные сети. Модель нервной клетки нейрона приве- дена на рис.7, простейшая модель нейронной сети, двухслойный персептрон – на рис.8.
    Рис. 6. Пример структурная неустойчивость открытых нелинейных систем
    Рис. 7. Модель нейрона

    79
    Четвертое направление развития когнитивной прогностики основано на тех- нологии эволюционного моделирования. Идея эволюционного подхода основана на дарвинистской теории селекции и отбора и представлена на рис. 9.
    Рис. 8. Персептрон Розенблатта
    Селекция
    Селекция
    Рис. 9. Общая функциональная структура алгоритма эволюционной оптимизации
    Прототип S
    0
    S
    Ng
    S
    1
    ...
    ...
    S
    1
    ...
    S
    Ng
    S
    1
    ...
    S
    Na
    Первое
    поколение
    Механизм селекции
    Механизм изменчивости
    S
    Ng
    S
    1
    ...
    ...
    S
    1
    ...
    S
    Ng
    S
    1
    ...
    S
    Na
    Второе
    поколение
    S
    1
    ...
    S
    Na
    ………………………………………………
    S
    R
    : Eff(S
    R
    )=max
    Третье
    поколение

    80
    Некоторым развитием эволюционного моделирования являются генетиче- ские алгоритмы, представленные нас слайде 10.
    Вопросы для самопроверки:
    1. Сформулируйте принцип детерминизма Лапласа.
    2. Что называется прогнозом? Чем прогноз отличается от предсказания?
    3. Назовите две основных технологии классического прогнозирования.
    4. В чем состоит экстраполяционный прогноз? Экспертный прогноз?
    5. Перечислите проблемы построения качественного, достоверного прогно- за.
    6. Приведите вариант классификации задач, решаемых на основе данной
    Data Mining.
    7. Приведите примеры программных продуктов на основе DM.
    8. Объясните технологию прецедентного анализа.
    9. Назовите генезис детерминированного хаоса.
    10. Опишите модель нейрона.
    11. Приведите пример искусственной нейронной сети.
    12. Опишите технологию эволюционного моделирования.
    13. Опишите технологию генетических алгоритмов.
    Рис. 10. Генетические алгоритмы

    81
    II. CТАТИСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ДАННЫХ
    ЛЕКЦИЯ 8
    ОСНОВЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ
    1. Основные понятия статистического анализа данных
    Определение 1. Математическая статистика - наука, выявляющая закономерности повторяющихся случайных явлений на основе обработки стати- стических данных, полученных в результате наблюдений.
    Определение 2.
    Математическая статистика - наука, разрабатывающая математические методы систематизации и использования статистических данных для на- учных и практических выводов.
    Будем различать три основных блока функциональностей, относящихся к математической статистике:
    - Дескриптивная статистика - совокупность эмпирических методов, ис- пользуемых для визуализации и интерпретации данных (расчет выборочных ха- рактеристик, таблицы, диаграммы, графики и т. д.);
    - Анализ и установлением связей и закономерностей, которым подчинены повторяющиеся случайные явления, на основе обработки статистических данных, полученных в результате наблюдений;
    - Классификация и распознавание образов.
    Терминальным пользователем статистических методов обычно являются системы прогнозирования и системы поддержки и формирования управляющих решений.
    Основными задачами математической статистики являются:
    1. Разработка методов анализа данных в зависимости от целей исследо- вания, к которым относятся:
    - оценка неизвестной вероятности события, неизвестной функции рас- пределения и ее параметров;
    - оценка зависимостей от случайных величин и т.д.;
    - проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения;
    2. Синтез алгоритмов прикладной статистики для решения задач выявле- ния взаимосвязей, трендов, прогнозирования, поддержки принятия решений и т.п.
    Для решения этих задач необходимо выбрать из большой совокупности однородных объектов ограниченное количество объектов, по результатам изуче- ния которых можно сделать прогноз относительно исследуемого признака этих объектов.
    Введем основные понятия математической статистики.
    Генеральная совокупность – все множество имеющихся данных, наблю- дений или объектов, относящихся к изучаемому явлению.
    Выборка – набор наблюдений или объектов, случайно отобранных из ге- неральной совокупности.

    82
    Объем генеральной совокупности N и объем выборки n – число наблю- дений или объектов в рассматриваемых совокупностях.
    Виды выборки:
    Повторная – каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность;
    Бесповторная – отобранный объект в генеральную совокупность не воз- вращается.
    Замечание. Для того, чтобы по исследованию выборки можно было сделать выводы о поведении интересующего нас признака генеральной совокупности, нужно, что- бы выборка правильно представляла изучаемые свойства генеральной совокупности, то есть была репрезентативной (представительной).
    Для выполнения этого условия, в частности, необходимо, чтобы, учиты- вая закон больших чисел, каждый объект был выбран случайно, причем для лю- бого объекта вероятность попасть в выборку одинакова.
    1   ...   6   7   8   9   10   11   12   13   ...   23


    написать администратору сайта