Главная страница
Навигация по странице:

  • ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Лекции

  • ОПК-1

  • I. СИСТЕМОЛОГИЯ АНАЛИЗА ДАННЫХ ЛЕКЦИЯ 1. ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ 1. Информация, данные, знания

  • Информация

  • Примечание. Сверхбольшая база данных

  • 2. Три уровня анализа информации

  • 3. Информатика и информационные системы

  • 4. Интеллектуальный анализ данных (ИАД)

  • Интеллектуальный анализ данных


    Скачать 7.76 Mb.
    НазваниеИнтеллектуальный анализ данных
    Дата11.10.2022
    Размер7.76 Mb.
    Формат файлаpdf
    Имя файлаiad_iadl.pdf
    ТипУчебное пособие
    #726651
    страница1 из 23
      1   2   3   4   5   6   7   8   9   ...   23

    МИНОБРНАУКИ РОССИИ
    Федеральное государственное бюджетное образовательное учреждение высшего образования
    Санкт-Петербургский государственный технологический институт
    (технический университет)
    Кафедра системного анализа и информационных технологий
    А.А. Мусаев
    ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ
    Лекции
    Учебное пособие
    Санкт-Петербург
    2018

    2
    УДК 681.3.06
    Мусаев, А.А. Интеллектуальный анализ данных: учебное пособие. 
    А.А.Мусаев – СПб.: СПбГТИ(ТУ), 2018. – 56 с.
    В учебном пособии рассматривается область системного анализа, связанная с полу- чением знаний из больших массивов структуризированных данных. Пособие состоит из трех разделов. Первый раздел посвящен общим вопросам моделирования и системного анализа, связанным с извлечением знаний из информации, хранящейся в базах данных. Во втором разделе рассмотрены статистические методы анализа данныхю В третьем разделе приведены алгоритмы компьютерной математики, связанные с саморазвивающимися ал- горитмами анализа данных – нейросетевые, эволюционные, генетические и т.п.
    Учебное пособие предназначено для студентов очной формы обучения по направле- нию подготовки 27.03.03 «Системный анализ и управление» в рамках рабочей программы дисциплины «Системный анализ, оптимизация и принятие решений» и «Управление в ор- ганизационных системах».
    Учебное пособие формирует компетенции: ОПК-1 в части – способен применять ме- тоды математики, теории управления и системного анализа, ОПК-2 в части – способен применять аналитические, вычислительные и системно-аналитические методы для реше- ния прикладных задач системного анализа, ПК-4 в части – способен применять методы системного анализа для решения прикладных проектно-конструкторских задач.
    Данное учебное пособие полезно студентам заочного отделения.
    Рис. 2, табл. 45, формул 21, библиогр. 6 назв.
    Рецензенты:
    1 Государственная полярная академия, доцент кафедры математи- ческого моделирования социально-экономических и природных процессов, канд. физ-мат. наук, Валентин Гавриилович Никитенко.
    2 Полосин Андрей Николаевич, канд. техн. наук, доцент кафедры систем автоматизированного проектирования и управления
    СПбГТИ(ТУ).
    Издание подготовлено в рамках выполнения государственного задания по оказанию образовательных услуг Минобрнауки России.
    Утверждено на заседании учебно-методической комиссии факультета
    Информатики и Управления 06.12.2017.
    Рекомендовано к изданию РИС СПбГТИ(ТУ)

    3
    I. СИСТЕМОЛОГИЯ АНАЛИЗА ДАННЫХ
    ЛЕКЦИЯ 1. ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
    1. Информация, данные, знания
    Основными составляющими окружающего нас мира являются материя, энергия и информация. Сразу же возникает очень непростой вопрос: Что такое информация?
    В соответствии с ГОСТ 7.0 – 99 имеем:
    Замечание.
    Здесь и далее аббревиатура «Nota bene», т.е. «Заметь хорошо!» бу- дут означать пожелание автора особенно внимательно отнестись к отмеченному тексту.
    Можно привести и другие определения, используемые философами, мате- матиками, специалистами в области информатики и др.:
    - Информация есть отражение реального мира: это сведения, которые один реальный объект содержит о другом реальном объекте (материалистическая фи- лософия);
    - Информация – это с ведения независимо от формы их представления
    (
    https://ru.wikipedia.org/wiki/Информация);
    -
    Информация – это знания относительно фактов, событий, вещей, идей и понятий, которые в определённом контексте имеют конкретный (ISO/IEC
    2382:2015).
    Насколько удачны приведенные определения информации?
    Очевидно, что понятнее от этих определений смысл термина не становить- ся – термин информация заменяется своими синонимами – «сведения», «знания» и т.п., которые, собственно, и являются информацией. Гностический змей очеред- ной раз схватил сам себя за хвост.
    Сама по себе информация может быть отнесена к категории абстрактных понятий типа математических, но ряд особенностей приближает ее к материаль- ным объектам. Так, информацию можно получить, записать, удалить, передать; информация не может возникнуть из ничего.
    Однако при распространении информации проявляется такое ее свойство, которое не присуще материальным объектам – отсутствие закона сохранения.
    Информация – это сведения, воспринимаемые человеком или специ- альными устройствами как отражение фактов материального или ду- ховного мира в процессе коммуникации.
    NB!

    4
    При передаче информации из одной системы в другую количество ин-
    формации в передающей системе не уменьшится, хотя в принимающей систе-
    ме оно обычно увеличивается.
    Если бы информация не обладала этим свойством, то, например, препода- ватель, читая лекцию студентам, терял бы информацию и становился неучем.
    Бернард Шоу сказал: «Если мы с вами обменяемся яблоками, у каждого бу- дет по одному яблоку; если обменяемся идеями – у каждого будет по две идеи».
    Интересный подход к косвенному определению информации может быть сформирован из анализа динамики диалектической пары понятий «Порядок – Ха- ос».
    В этом контексте информация представляет собой степень упорядоченно- сти первоначально хаотической среды, т.е. величину, обратную к энтропии. Ины- ми словами, именно информация выводит мир из состояния теплового хаоса, внедряя в него разнородные закономерности и организованные системы.
    Переходя от проблем, связанных со сложностью определений первопри- чинных категорий к инженерной конкретике предметной области, введем обще- принятые определения данных и знаний.
    Данные могут представлять собой факты, понятия или команды, представ- ленные в формализованном виде, позволяющем осуществить их передачу, ин- терпретацию или обработку [Обработка данных. Словарь. Основные термины. –
    1992].
    Данными могут бытьцифровые массивы, факты, тексты, графики, картинки, звуки, аналоговые или цифровые видеосегменты. Они может быть получены в ре- зультате наблюдений, измерений, экспериментов, арифметических и логических операций.
    Много ли в мире накоплено цифровых данных? В 2015-16 г.г. объем цифро- вой информации, созданной человечеством составил 4 зетабайт данных. К 2020г. ожидается увеличение этого объема до 40 зетабайт.
    При этом 90% накопленной информации было создано в течение последних 5 лет. Это и называет- ся информационным взрывом!
    За 2002 год, согласно оценке, сделанной в ка- лифорнийском университете Berkeley, объем инфор- мации в мире увеличился на 5*10 18
    байт и удваива- ется каждые 2 года.
    Примечание. Если предположить, что один байт соответствует песчинке, количе- ство песчинок в зеттабайте соответствует по объему числу песчинок в плотинах 500 са- мых крупных в мире гидроэлектростанций.
    Справка:
    Мегабайты: 1 Мбт = 10 6
    бт;
    Гигабайты: 1 Гбт = 10 9
    бт;
    Терабайты: 1 Тбт = 10 12
    бт;
    Петабайты: 1 Пбт = 10 15
    бт;
    Эксобайты: 1 Эбт = 10 18
    бт;
    Зеттабайты: 1 Збт = 10 21
    бт.

    5
    Одна электронная книга объемом в 1000 страниц – это примерно 3 мега- байта, так что библиотека, содержащая все эти 2.7З тб информации, должна со- держать примерно один квадриллион томов.
    В то же время, известно, что сейчас в мире имеется примерно 130 миллио- нов книг. Оценить их информационную емкость чрезвычайно трудно. Предполо- жительно имеется около 10 миллионов томов, действительно содержащих полез- ные сведения. При записи в электронной форме они займут 30 Птб, т.е. в миллион раз меньше всей накопленной информации. Это иллюстрирует разницу между первичной информацией и результатом ее перевода в концентрированную форму
    – знаниями.
    Примечание. Сверхбольшая база данных ( Very Large Database, VLDB) — это база данных, которая занимает чрезвычайно большой объём на устройстве физического хранения. Термин подразумевает максимально возможные объёмы БД, которые опреде- ляются последними достижениями в технологиях физического хранения данных и в тех- нологиях программного оперирования данными.
    Количественное определение понятия «чрезвычайно большой объём» меняется во времени. Так, в 1997 году самой большой в мире была текстовая база данных Knight
    Ridder's DIALOG объёмом 7 терабайт. В 2001 году самой большой считалась база данных объёмом 10,5 терабайт, в 2003 году — объёмом 25 терабайт. В 2005 году самыми круп- ными в мире считались базы данных с объёмом хранилища порядка сотни терабайт. В
    2006 году поисковая машина Google использовала базу данных объёмом 850 терабайт
    К 2010 году считалось, что объём сверхбольшой базы данных должен измеряться по меньшей мере петабайтами.
    К 2014 году по косвенным оценкам компания Google хранила на своих серверах до
    10—15 экзабайт данных в совокупности.
    По некоторым оценкам, к 2025 году генетики будут располагать данными о геномах от 100 миллионов до 2 миллиардов человек, и для хранения подобного объёма данных потребуется от 2 до 40 экзабайт.
    Итак, в руках аналитиков оказываются огромные массивы данных, получен- ных в результате мониторинга производственных процессов, накопленных в про- цессе массовых медицинских диспансеризаций или собранных в процессе социо- логических опросов. И что толку? Эти данные сами по себе бесполезны, их необ- ходимо обработать, чтобы извлечь из них полезные знания.
    Отсюда возникает главная задача анализа данных – преобразование дан- ных в знание, т.е. в особый вид доступной для человеческого понимания инфор- мации.
    Знания– этофакты и правила, формализующие опыт специа- листов в конкретной предметной области и позволяющие давать от- веты (решения), которые не содержатся в исходной информации в яв- ном виде.
    NB!

    6
    Сами по себе знания не нужны, однако они могут быть реализованы для формирования управляющих решений.
    NB!
    Соответственно, целью анализа данных является повышение качества
    (или обоснованности) формируемых управляющих решений.
    В свою очередь качество решений оценивается через эффективность сис- тем управления и их реализаций в конкретных предметных областях.
    Например, в промышленности терминальное качество управляющих реше- ний оценивается, как правило, в терминах экономической эффективности пред- приятия.
    2. Три уровня анализа информации
    В свете идей семиотики (науки о знаковых системах) адекватность инфор- мации, соответствие ее содержания образу отображаемого объекта, может выра- жаться в трех формах:
     синтаксической;
     семантической;
     прагматической.
    Синтаксическая адекватность связана с воспроизведением формально- структурных характеристик отражения, абстрагирование от смысловых и потреби- тельских параметров. На синтаксическом уровне учитываются: тип носителя,
    способ представления, скорость передачи и обработки, формат кодов, надеж-
    ность и точность преобразования и т.п. При этом информация инвариантна по отношению к энергетическим и пространственно-временным свойствам своего но- сителя. Одна и та же информация может существовать в различных кодах.
    Семантическая форма обеспечивает формирование понятий и представ- лений, выявление смысла, содержания информации. Количество семантической информации в сообщении является величиной относительной: одно и то же со- общение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантическим шумом) для пользователя некомпетентно- го.
    Прагматический аспект рассмотрения информации связан с ее ценно- стью, полезностью, практическим использованием для достижения целей дея- тельности системы.
    Возможность и эффективность использования информации обусловливает- ся такими ее потребительскими показателями качества, как репрезентатив-
    ность, содержательность, достаточность, доступность, своевременность,
    устойчивость, точность, достоверность, актуальность и ценность.

    7
    Кроме того, информация характеризуется такими свойствами, как относи-
    тельность, структурированность, наличие связи с носителем, инвариант-
    ность, содержательность, преобразуемость, совместимость, надежность, из-
    быточность, защищенность и другие.
    Всю информацию, поступающую в систему анализа и находящуюся в ней, можно подразделить на
    - процедурную, согласно которой реализуется процесс обработки, и
    - декларативную информацию, подвергающуюся обработке. При этом процедурная информация в ряде случаях может выступать в качестве деклара- тивной и наоборот.
    3. Информатика и информационные системы
    Под информационной системой понимают систему, организующую, храня- щую и преобразующую информацию, то есть систему, основным предметом и продуктом в которой является информация.
    По своей природе такие системы являются эрготехническими, в их функ- ционировании принимают непосредственное участие и люди (эргатические эле-
    менты), и технические средства.
    Информатика — это наука, изучающая свойства, структуру и функции ин- формационных систем, основы их проектирования, создания, использования и оценки, а также информационные процессы, в них происходящие.
    Информационные технологии – система процедур преобразования ин- формации с целью ее формирования, организации, обработки, распространения и использования.
    Индустрия информатики — это инфраструктурная отрасль хозяйства, об- служивающая другие отрасли материального производства и непроизводственной сферы, обеспечивающая их необходимыми информационными ресурсами, соз- дающая условия для их эффективного функционирования и развития (своеобраз- ная «нервная система» общественного производства).
    4. Интеллектуальный анализ данных (ИАД)
    Анализ данных (АД) – это система подходов и методов, ориентированная на выявление механизма порождения представленных данных в рамках имеющейся априорной модели этого механизма.
    Современные технологии анализа данных – новая парадигма процесса ис- следования данных, основанная на принципах, предложенных Джоном Тьюки:

    Анализ – это способ существования данных. Его материальная осно- ва – системы «человек – машина».

    Принцип многократного возвращения к одним и тем же данным.

    Принцип множественности возможных моделей.

    8

    Принцип варьирования предпосылок с рассмотрением последствий такого варьирования.

    Принцип множественности результатов и выбора на основе нефор- мальных процедур принятия решений.

    Принцип полного использования эндогенной информации и макси- мального учета информации экзогенной.
    В ряде случаев АД строится и реализуется в соответствии с технологиями искусственного интеллекта.
    NB! Искусственный интеллект (ИИ, artificial intelligence)— это общее по- нятие, описывающее «способность вычислительной машины моделировать про- цесс мышления за счет выполнения функций, которые обычно связывают с чело- веческим интеллектом»: построение и использование экспертных систем, логиче- ский вывод, понимание естественных языков, зрительное и слуховое восприятие
    (ГОСТ 15971 – 90. Системы обработки данных. Термины и определения).
    NB! Экспертная система (ЭС, expert system) - это система искусственного интеллекта, включающая базу знаний с набором правил и машину вывода (infer- ence engine), позволяющую на основании правил и предоставляемых пользовате- лем фактов распознать ситуацию, сформулировать решение или дать рекоменда- цию. Обычно ЭС дополнительно включает в себя рабочий интерфейс пользовате- ля, через который осуществляется взаимодействие эксперта с компьютером.
    Таким образом, ЭС – это компьютерная система, которая эмулирует спо- собности эксперта к принятию решения.
    Объединение технологий АД и ИИ привело к возникновения нового направ- ления обработки данных – интеллектуального анализа данных.
    NB! Интеллектуальный анализ данных (ИАД) – исследование данных, ис- пользующее методы искусственного интеллекта и ориентированное на придание системе свойств искусственного интеллекта.
    Вычислительная техника создавалась, прежде всего, для обработки дан- ных. Рутинную часть анализа данных стараются переложить на системы под-
    держки принятия решений (СППР, DSS) – системы, обладающие средствами ввода, хранения и анализа данных из конкретной предметной области с целью поиска эффективного управляющего решения.
    Такие системы не генерируют правильные решения, а предоставляют спе- циалисту – аналитику данные в форме, удобной для изучения и анализа. Интел-
    лектуальные СППР содержат функции, основанные на методах ИИ. Их главным отличием является способность к саморазвитию, проявляющаяся в генерации ка-

    9 чественно новых решений, не предусмотренных исходными алгоритмами и про- граммой.
    1.5. Data Mining
    Аналитик имеет дело и с документами, и с табличными значениями, кото- рые также принято называть фактографическими.
    Под единичным фактом принято понимать описание некоторого события. В формализованном виде для этого применяется следующая запись:
    }
    x
    ,...,
    x
    ,
    x
    ,
    t
    ,
    a
    {
    E
    m
    2 1
    j k

    где a
    j
    – идентификатор (имя) объекта, t – время измерения, х
    i
    – значение i-й ха- рактеристики объекта.
    Примечание. Временной ряд событий образует временной ряд измере- ний. Существует два основных подхода к их формированию: во-первых, «по событию» – момент времени t определяется как момент изменения значения одной или более характеристик объекта; во-вторых, «по времени» – измерения проводятся через равные промежутки времени. Больший интерес с точки зрения практики представляет первый вариант, однако, большинство математических методов «заточено» под второй.
    Рассматривая любой документ как множество высказываний мож- но гомоморфно отобразить его на множество фактов. Иначе говоря, из любого до- кумента можно выделить некоторые факты. Именно они являются исходным сырьем для последующего анализа.
    Обычно объекты предварительно упорядочиваются по некоторому призна- ку, как правило, представляющему собой одну из характеристик, кото- рой обладают исследуемые объек- ты.
    Фактографические данные, т.е. данные, непосредственно отно- сящиеся к заданной предметной об- ласти, удобно представлять в таб- личном виде: строки a
    1
    , a
    2
    ,
    …, a
    n
    отражают информацию о са- мих исследуемых объектах (разли- чаемых, как правило, по естествен- ному (имени) или условному иден- тификатору), а столбцы x
    1
    , x
    2
    ,
    …, x
    m
    – информацию о значениях характеристик этих объектов. При необходимости учета временного фактора та- ких таблиц должно быть несколько: по одной на каждый отсчет времени.
    Рис. 1. Таблица «объект-свойство-время».
      1   2   3   4   5   6   7   8   9   ...   23


    написать администратору сайта