Главная страница
Навигация по странице:

  • Процедура классификации.

  • ТРЕБОВАНИЯ К ОТЧЕТУ

  • КОНТРОЛЬНЫЕ ВОПРОСЫ

  • ЛАБОРАТОРНАЯ РАБОТА №8 . Предсказательная аналитика с помощью нейронной сети Цель

  • Ауе. Основное 4 МУ АД Лаб 4 сем (1). Методические указания к проведению лабораторных занятий по нормативной учебной дисциплине естественнонаучного цикла Анализ данных


    Скачать 6.5 Mb.
    НазваниеМетодические указания к проведению лабораторных занятий по нормативной учебной дисциплине естественнонаучного цикла Анализ данных
    Дата12.10.2022
    Размер6.5 Mb.
    Формат файлаdoc
    Имя файлаОсновное 4 МУ АД Лаб 4 сем (1).doc
    ТипМетодические указания
    #730496
    страница5 из 7
    1   2   3   4   5   6   7
    Пример. Больные гипертиреозом (увеличение щитовидной железы) общим числом 23 человека были разделены на три группы.

    Группа 1. Лечение оказалось успешным; проведенное через большой промежуток времени клиническое обследование показало, что пациент здоров.

    Группа 2. Лечение безуспешно, т. е. состояние больного осталось без изменения.

    Группа 3. Исход лечения успешен, но в дальнейшем возможен рецидив.

    По результатам обследования 23 пациентов имеются следующие измерения:

    y6 – йод, регистрируемый через 3 часа после принятия испытательной дозы;

    y9 – йод, регистрируемый через 48 часов после принятия испытательной дозы;

    y10 – содержание в крови белковосвязанного йода (РВ131J) через 48 часов;

    kl – номер группы.

    Конкретные результаты приведены в табл.2.

    Таблица 2

    Данные о 23 больных гипертиреозом, разделенныз на три группы



    kl

    y6

    y9

    y10



    kl

    y6

    y9

    Y10

    1

    1

    14.4

    25.1

    0.20

    13

    1

    54.0

    57.0

    0.19

    2

    1

    20.1

    40.1

    0.11

    14

    1

    16.1

    20.6

    0.22

    3

    1

    24.1

    32.1

    0.17

    15

    1

    57.5

    74.5

    0.49

    4

    1

    11.1

    16.9

    0.12

    16

    1

    37.8

    63.0

    0.32

    5

    1

    16.3

    32.1

    0.36

    17

    2

    55.8

    48.0

    2.74

    6

    1

    40.5

    64.4

    0.21

    18

    2

    75.0

    60.0

    1.37

    7

    1

    52.7

    50.0

    0.53

    19

    2

    72.0

    65.0

    0.70

    8

    1

    20.8

    22.3

    0.13

    20

    2

    70.6

    45.0

    1.40

    9

    1

    14.0

    3.1

    0.18

    21

    3

    24.1

    45.0

    0.22

    10

    1

    27.0

    41.7

    0.19

    22

    3

    33.2

    55.0

    0.01

    11

    1

    44.3

    63.8

    0.22

    23

    3

    30.4

    44.6

    0.09

    12

    1

    47.5

    50.1

    0.29
















    По матрице исходных данных находятся средние и стандартные отклонения дискриминантных переменных (табл. 3, 4), общая T и внутригрупповые W матрицы сумм квадратов и перекрестных произведений (табл. 5, 6).

    Таблица 3

    Средние дискриминантных переменных

    Группы GR

    Y6

    Y9

    Y10

    Кол-во

    1 ( )

    31,1375

    41,0500

    0,2456

    16

    2 ( )

    68,3500

    54,5000

    1,5525

    4

    3 ( )

    29,2333

    48,2000

    0,1067

    3

    Все группы )

    37,3609

    44,3217

    0,4548

    23

    Таблица 4

    Стандартные отклонения

    Группы GR

    Y6

    Y9

    Y10

    Кол-во

    1.

    16,2739

    20,4760

    0,1237

    16

    2.

    8,5656

    9,5394

    0,8551

    4

    3.

    4,б608

    5,8924

    0,1060

    3

    Все группы










    23

    Таблица 5

    Матрица общей суммы перекрестных произведений Т

    Переменная

    Y6

    Y9

    Y10

    Y6

    8895,3148

    6025,1896

    163,2293

    Y9

    6025,1896

    7262,2391

    53,5466

    Y10

    163,2293

    53,5466

    8,3290


    Таблица 6

    Матрица внутригрупповой суммы перекрестных произведений W

    Переменная

    Y6

    Y9

    Y10

    Y6

    4236,1542

    4532,3100

    –2,1545

    Y9

    4532,3100

    6631,4600

    1,9565

    Y10

    –2,1545

    1,9565

    2,4455

    Если разделить каждый элемент T на (n - 1)), а каждый элемент W – на (ng), то получим ковариационные матрицы. Для оценки меры связи между дискриминантными переменными матрицы T и W преобразованы в корреляционные матрицы, которые приведены в табл. 7 и 8. Элементы этих матриц найдены по формулам и .

    Из общей корреляционной матрицы видно, что переменные некоррелированы на уровне 0.01. Отсюда следует, что ни одна переменная не может быть предсказана по значению, соответствующему другой переменной.

    Таблица 7

    Общая корреляционная матрица

    Переменная

    Y6

    Y9

    Y10

    Y6

    1,0000

    -0,1759

    0,0664

    Y9

    -0,1759

    1,0000

    0,3480

    Y10

    0,0664

    0,3480

    1,0000

    Для измерения меры разброса наблюдений внутри классов используется внутригрупповая корреляционная матрица, которая приведена в табл. 8. Эта матрица не совпадает с общей корреляционной матрицей. Из таблицы видно, что многие коэффициенты отличаются от значений, приведенных в табл.7.

    Таблица 8

    Внутригрупповая корреляционная матрица

    Переменная

    Y6

    Y9

    Y10

    Y6

    1,0000

    0,8551

    –0,0212

    Y9

    0,8551

    1,0000

    0,0154

    Y10

    –0,0212

    0,0154

    1,00

    Из табл. 5 и 6 видно, что большая часть элементов матрицы W меньше соответствующих элементов матрицы T. Разница этих матриц определяет межгрупповую сумму квадратов отклонений и попарных произведений. Эта матрица приведена в табл. 9.

    Таблица 9

    Матрица межгрупповой суммы перекрестных произведений B

    Переменная

    Y6

    Y9

    Y10

    Y6

    4659,1606

    1492,8796

    165,3838

    Y9

    1492,8796

    630,7791

    51,5901

    Y10

    165,3838

    51,5901

    5,8834

    Для нахождения коэффициентов канонической дискриминантной функции решаем задачу (2) в терминах собственных чисел и векторов, которая в матричной записи имеет вид (10). Систему уравнений (10) решаем с помощью разложения Холецкого матрицы = ,

    .



    Наибольшее собственное значение для системы равно и , которым соответствуют собственные векторы и . Положив , получаем коэффициенты канонической дискриминантной функции и .

    При использовании коэффициентов b начало координат не будет совпадать с главным центроидом. Для того чтобы начало координат совпало с главным центроидом нужно нормировать компоненты вектора b, используя формулы (11). Для оценки относительного вклада каждой переменной в значение дискриминантной функции вычислим стандартизованные дискриминантные коэффициенты по формуле (12). Результаты вычислений приведены в табл.10. Из табл.10 видно, что две наиболее значимо коррелированные переменные Y6 и Y9 имеют примерно одинаковые стандартизованные коэффициенты. Значения нестандартизованной канонической функции для каждого пациента сведены в табл.15. Координаты центроидов первой, второй и третьей групп соответственно равны: .

    Таблица 10

    Коэффициенты дискриминантной функции

    Нестандартизованные

    коэффициенты

    Стандартизованные

    коэффициенты

    Переменная

    Коэффициенты

    Переменная

    Коэффициенты

    Y6

    0,0978

    -0,0580

    Y6

    1,4228

    -0,8445

    Y9

    -0,0614

    0,0850

    Y9

    -1,1184

    1,5479

    Y10

    2,0504

    0,9050

    Y10

    0,7170

    0,33165

    Константа

    -1,8628

    -0,20112

    Собств. нач.

    5,3514

    0,0452

    Для определения взаимной зависимости отдельной переменной и дискриминантной функции рассмотрим внутригрупповые структурные коэффициенты, значения которых находим по формуле (13). Результаты вычислений представлены в табл. 11.

    Таблица 11

    Внутригрупповые структурные коэффициенты

    Переменная

    Коэффициент

    Y6

    1,4580

    -0,8653

    Y9

    -1,1460

    1,5861

    Y10

    0,7347

    0,3243

    Переменные Y6 и Y9 имеют небольшие структурные коэффициенты, но у них относительно большие стандартизованные коэффицинты. Это объясняется значимой корреляцией переменной Y6 с другими переменными и может оказаться, что вклад переменных Y6 и Y9 в дискриминантые значения невелик. Для оценки реальной полезности канонической дискриминантной функции вычисляем по формулам (14)–(16) коэффициент канонической корреляции, Λ-статистику Уилкса , статистику хи-квадрат, уровень значимости. Результаты вычислений приведены в табл. 12.

    Таблица 12

    Основные статистики

    Дискриминантная функция

    Собственное значение

    Каноническая корреляция R

    Λ-статистика Уилкса

    Статистика xи-квадрат

    Степень свободы

    Уровень

    значимости.

    1

    5,3514

    0,9179

    0,1506

    35,9655

    6

    4,076 10-6

    2

    0,0452

    0,2080

    0,9567

    0,8405

    2

    0,6569

    Данные таблицы указывают на хорошую дискриминацию групп: большая величина канонической корреляции соответствует тесной связи дискриминантной функции с группами; малая величина Λ-статистики Уилкса означает, что четыре используемых переменных эффективно участвуют в различении групп и, наконец, статистика хи-квадрат значима с уровнем 1,6 10-8.

    Процедура классификации. Процедуры классификации могут использовать канонические дискриминантные функции или сами дискриминантные переменные. Для классификации с помощью дискриминантных переменных коэффициенты классифицирующей функции вычисляем по формуле (22). Результаты вычислений приведены в табл. 13. Значения классифицирующей функции для каждого больного вычислены по формуле (21), результаты классификации в виде классификационной матрицы представлены в табл. 14. Так как процент правильной классификации составляет 100 %, то таблицу классифицирующих функций для отдельных пациентов можно не представлять.

    Таблица 13

    Коэффициенты классифицирующих функций

    Переменная

    Группа 1

    Группа 2

    Группа 3

    Y6

    0,0603

    0,5875

    –0,0631

    Y9

    0,0820

    –2,4110

    0,1883

    Y10

    1,9962

    13,4071

    0,6661

    Константа

    –2,8760

    –23,9141

    –3,6512

    Таблица 14

    Классификационная матрица

    Группы

    Предсказанные группы (число, процент)




    1

    2

    3

    Всего

    1

    10

    62,50

    0

    0,0

    6

    37,50

    16

    2

    0

    0.00

    4

    100,00

    0

    00.0

    4

    3

    0

    0,00

    0

    0,00

    3

    100,00

    3

    Результаты классификации с помощью расстояния Махаланобиса (формулы (25), (26)) и апостериорной вероятности принадлежности к группе в предположении нормальности распределения (формула 19) приведены в табл. 15.

    Таблица 15

    Сводка результатов классификации



    больного

    Нестандартизованные канонические функции di

    Квадрат расстояния Махаланобиса

    D2(x/Gk)

    Группа

    Значение

    Группа 1

    Группа 2

    Группа 3

    1

    1

    –1,6258

    –0,5453

    1,3941

    39,9613

    1,7126

    2

    1

    –2,1879

    0,3389

    2,1281

    46,4330

    0,4254

    3

    1

    –1,1576

    –0,5402

    0,3037

    33,8515

    1,4480

    4

    1

    –1,6083

    –1,1376

    2,1155

    40,6888

    3,1499

    5

    1

    –1,5398

    0,0998

    1,6444

    39,0807

    1,3698

    6

    1

    –1,4635

    1,3352

    2,4410

    38,6575

    0,8729

    7

    1

    –1,3373

    –0,3477

    5,3223

    12,0657

    10,6765

    8

    1

    –1,2347

    –0,9555

    1,2544

    32,8613

    3,5611

    9

    1

    –2,4564

    –0,3223

    5,7100

    30,9378

    10,5528

    10

    1

    0,1421

    –1,4293

    0,4101

    36,6478

    0,2827

    11

    1

    1,0663

    –1,0241

    1,6739

    33,2676

    1,1976

    12

    1

    –0,2524

    0,3058

    0,1102

    19,8784

    5,5216

    13

    1

    –0,1306

    0,3126

    3,2852

    20,941

    6,5678

    14

    1

    –1,0198

    –1,1302

    1,2853

    34,6955

    3,0330

    15

    1

    1,4639

    0,1921

    4,0840

    22,5124

    5,3097

    16

    1

    1,4759

    –1,4148

    2,6895

    38,3378

    1,0454

    17

    2

    1,3432

    6,4170

    60,6784

    12,4824

    73,1019

    18

    2

    –0,0236

    4,7068

    29,9684

    0,4904

    40,9341

    19

    2

    –0,0311

    2,6839

    14,5114

    6,785

    21,8918

    20

    2

    –1,0408

    5,2731

    36,9560

    1,7390

    50,1042

    21

    3

    0,6296

    –1,8645

    1,7390

    42,4824

    0,2744

    22

    3

    0,7651

    –2,0234

    2,1344

    44,5377

    0,2310

    23

    3

    0,0998

    –1,4813

    0,4413

    37,2501

    0,2704

    ТРЕБОВАНИЯ К ОТЧЕТУ

    Отчет должен содержать следующие разделы:

    1. Название и цель работы;

    2. Номер варианта задания и исходные данные;

    3. Контрольные вопросы и краткие ответы на них;

    4. Расчетные формулы, описание алгоритмов и реализующих их программ;

    5. Результаты расчетов и их анализ;

    6. Выводы.

    КОНТРОЛЬНЫЕ ВОПРОСЫ

    1. Какое максимальное число канонических дискриминантных функций допустимо в дискриминантном анализе?

    2. Какую информацию дают стандартизованные и структурные коэффициенты дискриминантной функции?

    3. Для данных примера 1 проведите процедуру отбора переменных с помощью стандартизованных и структурных коэффициентов.

    4. Какова интерпретация канонического коэффициента корреляции?.

    5. В каком случае учет априорных вероятностей может сильно изменить результаты классификации?


    ЛАБОРАТОРНАЯ РАБОТА №8 .

    Предсказательная аналитика с помощью нейронной сети
    Цель: изучить методику предсказательной аналитики
    Задание на выполнение работы.

    Ознакомиться с возможностями аналитического пакета Deductor, выполнив приведенные ниже задания. В конце работы сохранить проект.
    Прогнозирование с помощью нейронной сети

    Особенностью процесса оценки стоимости объекта имущества является его рыночный характер. Это означает, что процесс оценки объекта не ограничивается учетом одних только затрат на создание или приобретение оцениваемого объекта собственности - необходим учет совокупности ры- ночных факторов, экономических особенностей оцениваемого объекта, а также макроэкономического и микроэкономического окружения. Кроме того, рынок недвижимости очень динамичный, поэтому требуется периодическая переоценка объектов собственности.

    Нейросети как универсальные аппроксиматоры позволяют строить сложные нелинейные регрессионные модели типа "черный ящик". Создание моделей для оценки стоимости недвижимости могут существенно повысить эффективность работы организаций, занимающихся риэлтерской

    деятельностью.

    Рассмотрим данный механизм на примере таблицы продаж из файла

    «Недвижимость.txt». При импорте обратите внимание на типы и виды числовых данных (при необходимости их нужно изменить).

    Для построения модели использовались данные по стоимости квартир на вторичном рынке жилья одного из крупных городов России (2011 год).

    Каждая квартира характеризуется следующими свойствами:

    • Количество комнат (1-3);

    • Признак этажности (первый/последний или нет);

    • Площадь общая, м2;

    • Площадь жилая, м2;

    • Площадь кухни, м2;

    • Наличие агентства – продается объект напрямую или через агентство;

    • Состояние квартиры – экспертная оценка по шкале от 2 до 5 (2 –

    нуждается в ремонте, 5 – отличное состояние квартиры);

    • Тип планировки;

    • Район – географическая принадлежность;

    Результирующий признак – стоимость квартиры в тыс. рублей.
    Предварительно проведем аудит выборки при помощи узла «Качество данных». Все настройки мастера обработки этого узла оставим предлагаемыми по умолчанию. В результате откроется визуализатор «Оценка качества данных».

    Аудит данных обнаружил несколько выбросов (выходящих за границы

    3-сигма) и экстремальных значений (выходящих за границы 5-сигма). В частности, детализация показывает, что для поля «Общая площадь» есть три экстремальных значения 133 и 134 м2 (рис. 8.1).

    Вообще, нейросетевые модели достаточно устойчивы к шумам и вы-

    бросам, тем не менее, экстремальные значения лучше все-таки удалить. По умолчанию предлагается ограничить найденные выбросы и экстремальные значения.

    Переопределим это действие:

    • для выбросов выбрать пункт «Оставить без изменения»;

    • для экстремальных значений – «Удалять».

    Для того чтобы эти действия были произведены, после узла «Качество данных» добавьте узел «Редактирование выбросов».

    Для оценки качества нейросетевой модели можно использовать прием перекрестной проверки (cross-validation). Это повторение всего процесса обучения и тестирования несколько раз при различных случайных выборках.



    Рис. 8.1

    Для определения ошибки принято делать десятиблочную перекрест- ную проверку. Данные случайным образом разделяются на 10 блоков, в каждом из которых классы наблюдений представлены приблизительно так же, как и в исходном множестве. Затем модель обучается на 9/10 данных и тестируется на оставшейся 1/10 части. Полученные 10 значений ошибки усредняются, и результат рассматривается как общая ошибка модели.

    Для того, чтобы заложить эту логику в сценарий необходимо разде- лить выборку на 10 примерно равных частей. Это делается при помощи не- скольких узлов.

    а) Узел «Квантование» выделяет 10 квантилей, в каждом от 212 до 213

    записей (рис. 8.2).



    Рис. 8.2

    б) Узел «Группировка» производит группировку по полю «ID объек- та» (рис. 8.3).



    Рис. 8.3

    в) Узел «Настройка набора данных» формируют список уникальных номеров блоков с меткой № блока и именем Block (рис. 8.4).



    Рис. 8.4

    г) Узел «Слияние с узлом» (полное внешнее соединение) «размножает»

    записи исходной выборки (узел «Квантование») в число раз, равное количеству блоков – в итоге имеем 21280 записей и идентификатор группы для каждой из них.

    Проведем построение нейросети для нулевого блока. Для этого необ- ходимо использовать фильтр.

    Выделите тестовое и обучающее множество при помощи «Калькуля-

    тора», записав в него логическое выражение (рис. 8.5).



    Рис. 8.5
    Теперь все готово к построению модели нейросети. Запустите мастер обработки и выберите обработчик «Нейросеть» (рис. 8.6).



    Рис. 8.6

    Для полей, содержащих информацию о состоянии, комнатах, этажах и агентстве назначить нормализатор «Уникальные значения».

    На 3 шаге указать способ разделения – «по столбцу» и столбец «Те- стовое множество».

    На 4 шаге настраивается структура нейронной сети. Укажите количе-

    ство скрытых слоев – 1, а количество нейронов – 5.

    На следующих шагах настройки измените только количество эпох, по достижению которых нейросеть останавливает обучение, на 1000. После чего запустите нейросеть на обучение.

    Для отображения полученных результатов выберите следующие визу- ализаторы: «Граф нейросети» для отображения структурной схемы по-

    строенной нейронной сети; «Диаграмма рассеяния» для просмотра каче- ства обучения; «Что-если» для расчета стоимости квартиры по введенным

    пользователям характеристикам.

    Рассмотрим визуализатор «Граф нейросети» (рис. 8.7). На нем гра- фически отображается нейронная сеть со всеми ее нейронами и синаптиче- скими связями. Значения весов, отображаются определенным цветом, по- смотреть которое можно по цветовой шкале, расположенной внизу окна.



    Рис. 8.7

    Диаграмма рассеяния показывает качество регрессионной модели. Большая масса точек сосредоточена вблизи линии идеальных значений, по- этому можно сказать, что модель обучилась хорошо (рис. 8.8).



    Рис. 8.8

    Построение нейросетевой модели для одного блока окончено. Рассчитаем среднюю ошибку аппроксимации для стоимости недвижи-

    мости при помощи калькулятора. Это позволит более точно численно оце-

    нить качество модели. Для этого используем «Калькулятор» (рис. 8.9). Для расчета количества записей в область Выражение ввести 1.



    Рис. 8.9

    Сгруппируйте данные как показано на рис. 8.10.



    Рис. 8.10

    Используя «Калькулятор», добавим новое поле «Средняя ошибка ап- проксимации», рассчитываемое как отношение ошибки и количества запи- сей. Ошибка получилась в районе 8,0%. Хорошим результатом считается ошибка до 10-12%. Модель является применимой для расчета стоимости недвижимости.

    Для проведения 10-блочной кросс-валидации требуется проделать по- следовательность действий как в предыдущем шаге, но для всех блоков. Это делается при помощи «Групповой обработки» от узла «Внешнее соеди-

    нение».

    На первом шаге мастера обработки этого узла укажем поле «№ блока» как поле, по которому будет проводиться групповая обработка. На следу- ющих двух шагах нужно указать цепочку узлов для групповой обработки. Это будет ветвь от узла фильтра блока до расчета средней ошибки аппрок- симации.

    В параметрах групповой обработки поставить первый, третий и чет-

    вертый флажок.

    Запуск групповой обработки всегда приведет к построению 10 моде- лей нейросетей. В итоге мы получим 10 оценок средней ошибки аппрокси- мации на обучающем и на тестовом множествах.

    Из рис. 8.11 видно, что минимальная ошибка достигается на подвы-

    борке под номером 6. Выберем эту модель как основную и перенастроим ветвь с фильтром на этот номер блока.



    Рис. 8.11

    На основе лучшей модели, построенной на подвыборке № 7, спрогно- зируем стоимость следующего объекта недвижимости:

    • количество комнат – 3;

    • район – Орджоникидзевский;

    • планировка – Свердловский вариант;

    • этаж – последний;

    • площадь – 63;

    • жилая площадь – 41;

    • кухня – 8;

    • состояние – 4;

    • наличие агентства - нет.

    Для этого воспользуемся визуализатором Что-Если (рис. 8.12).



    Рис. 8.12

    По прогнозу нейронной сети стоимость квартиры составляет 1856,5

    тыс. рублей.

    1   2   3   4   5   6   7


    написать администратору сайта