Кафедра математических и компьютерных методов курсовая работа методология интеллектуального анализа данных

Название	Кафедра математических и компьютерных методов курсовая работа методология интеллектуального анализа данных
Дата	23.01.2020
Размер	0.51 Mb.
Формат файла
Имя файла	intellektualny_analiz_dannykh (3).docx
Тип	Курсовая #105468
страница	5 из 6

1 2 3 4 5 6

Конфигурация данной сети:

Таблица 3.1 — Конфигурация сети

Общие параметры	Параметры скрытого слоя	Параметры выходного слоя
Количество узлов во входном слое: 10	Коэффициент обучения: 0.25	Коэффициент обучения: 0.01
Число узлов в скрытом слое: 10	Коэффициент инерции: 0.6	Коэффициент инерции: 0
Число узлов в выходном слое: 1	Затухание: 0	Затухание: 0
Алгоритм обучения: обратное распространение
Функция активации: сигмоидальная

Точность подбора этих параметров определяет способность сети к обучению. Входные узлы соответствуют финансовым коэффициентам, используемым для предсказания несостоятельности. Значение единственного узла выходного слоя – показатель финансовой состоятельности предприятия. Единичное значение соответствует состоянию банкротства, нулевое – полному финансовому благополучию. В качестве активационной функции выбрана сигмоидальная:

Рисунок 3.2 — Применение сигмодиальной функции

В качестве входных данных используется разработанный автором набор финансовых коэффициентов. В качестве базовых использовались параметры модели Альтмана, они были дополнены набором собственных. При этом при выборе параметров модели основное внимание уделялось не соответствию расчета выбранных коэффициентов общепринятым методикам финансового анализа, а влияние исходного набора данных на качество обучения сети и как следствие эффективность ее прогнозирования

Таблица 3.2 — Набор финансовых коэффициентов

№	Наименования
1	K1 = Оборотный капитал/Активы
2	k2 = Нераспределенная прибыль/Активы
3	k3 = Прибыль до налогообложения/Активы
4	k4 = Объем продаж/Активы
5	k5 = Рыночная стоимость собственного капитала/Активы
6	K6 = Чистый денежный поток/Активы
7	K7 = Чистый денежный поток/Общая задолженность
8	K8 = Оборачиваемость активов/ Текущие обязательства
9	K9 = Оборачиваемость активов/Выручка
10	K10 = Общая задолженность/Активы

Коэффициенты обучения и инерции являются параметрами алгоритма обратного распространения и определяют скорость и точность определения весов, минимизирующих ошибку предсказания. Большие значения этих параметров позволяют алгоритму сходиться за меньшее число итераций, но при этом возрастает риск “проскочить” оптимальное решение.

В качестве исходных данных бралась финансовая отчетность 100 компаний (данные о 50 компаниях выступали в качестве данных для обучения, для тестирования модели 100 компаний были разбиты на 2 множества – обучающее множество и тестирующее множество).

Для оценки правильности модели была собрана статистика по фирмам за 3 года до их банкротства (для благополучных компаний – за 3 года предшествующих произвольной дате существования предприятия) и нейронная сеть обучена на данных финансовой отечности каждого года.

Таблица 3.3 — Обучающее множество

	Корректность прогноза
	Обучающее множество
	Общий показатель	Для благополучных компаний	Для несостоятельных
Год 0	98,00%	100,00%	96,00%
Год 1	88,00%	88,00%	88,00%
Год 2	90,00%	100,00%	81,00%

Таблица 3.4 — Тестирующее множество

	Корректность прогноза
	Тестирующее множество
	Общий показатель	Для благополучных компаний	Для несостоятельных
Год 0	88,00%	81,00%	96,00%
Год 1	69,00%	58,00%	81,00%
Год 2	62,00%	65,00%	58,00%

Как и ожидалось, модель показала высокие результаты для обучающего множества и значительно более низкие для тестирующего. Также, в анализе результатов прогнозирования для компаний из тестирующего множества, представляется факт высокой вероятности предсказания банкротства в первые 2 года. Требуется дальнейшее исследование для определения причин этого явления.
3.1 Дерево решений
Будем использовать программу Tree Analyzer из пакета Deductor ver.3. В качестве исходных данных была взята выборка, состоящая из 1000 записей, где каждая запись – это описание характеристик заемщика и параметр, описывающий его поведение во время погашения ссуды. При обучении дерева использовались следующие факторы, определяющие заемщика: "N Паспорта"; "ФИО"; "Адрес"; "Размер ссуды"; "Срок ссуды"; "Цель ссуды"; "Среднемесячный доход"; "Среднемесячный расход"; "Основное направление расходов"; "Наличие недвижимости"; "Наличие автотранспорта"; "Наличие банковского счета"; "Наличие страховки"; "Название организации"; "Отраслевая принадлежность предприятия"; "Срок работы на данном предприятии"; "Направление деятельности заемщика"; "Срок работы на данном направлении"; "Пол"; "Семейное положение"; "Количество лет"; "Количество иждивенцев"; "Срок проживания в данной местности"; "Обеспеченность займа"; "Давать кредит". При этом поля: "N Паспорта", "ФИО", "Адрес", "Название организации" определены алгоритмом уже до начала построения дерева решений как непригодные на рисунке 3.3 по причине практической уникальности каждого из значений/
Рисунок 3.3 — Выбор необходимых критериев

Целевым полем является поле "Давать кредит", принимающий значения "Да"(True) и "Нет"(False). Эти значения можно интерпретировать следующим образом: "Нет" – плательщик либо сильно просрочил с платежами, либо не вернул часть денег, "Да" – противоположность "Нет".

После процесса построения дерева решений при помощи программы Tree Analyzer получаем следующую модель оценки кредитоспособности физических лиц, описывающую ситуацию, относящуюся к определенному банку. Эта модель представлена в виде иерархической структуры правил – дерева решений приложение А.

Анализируя полученное дерево решений , можно сказать следующее:

При помощи дерева решений можно проводить анализ значащих факторов. Такое возможно благодаря тому, что при определении параметра на каждом уровне иерархии, по которому происходит разделение на дочерние узлы, используется критерий наибольшего устранения неопределенности. Таким образом, более значимые факторы, по которым проводится классификация, находятся на более близком расстоянии (глубине) от корня дерева, чем менее значимые. Например, фактор "Обеспеченность займа" более значим, чем фактор "Срок проживания в данной местности". А фактор "Основное направление расходов" значим только в сочетании с другими факторами. Еще одним интересным примером значимости различных факторов служит отсутствие в построенном дереве параметра "Наличие автотранспорта", что говорит о том, что на сегодняшний день это наличие не является определяющим при оценке кредитоспособности физического лица.
Можно заметить, что такие показатели как "Размер ссуды", "Срок ссуды", "Среднемесячный доход" и "Среднемесячный расход" вообще отсутствуют в полученном дереве. Данный факт можно объяснить тем, что в исходных данных присутствует такой показатель как "Обеспеченность займа", и т.к. этот фактор является точным обобщением 4 вышеописанных показателей, алгоритм построения дерева решений выбрал именно его.

Очень важной особенностью построенной модели является то, что правила, по которым определяется принадлежность заемщика к той или иной группе, записаны на естественном языке. Например, на основе построенной модели получаются следующие правила:

ЕСЛИ Обеспеченность займа = Да И Срок проживания в данной местности, лет > 5.5 И Количество лет > 19.5 И Наличие недвижимости = Да ИНаличие банковского счета = Да ТО Давать кредит = Да (Достоверно на 98%)

ЕСЛИ Обеспеченность займа = Да И Срок проживания в данной местности, лет > 5.5 И Наличие недвижимости = Да И Количество лет > 21.5 И Срок работы на данном направлении, лет <= 5.5 И Пол = Муж И Наличие банковского счета = Нет И Основное направление расходов = Одежда, продукты питания и т.п. ТО Давать кредит = Нет (Достоверно на 88%)
Правильно построенное на данных прошлых периодов дерево решения обладает одной еще очень важной особенностью. Эта особенность называется "способность к обобщению", т. е. если возникает новая ситуация (обратился потенциальный заемщик), то скорее всего такие ситуации уже были и достаточно много. Вследствие чего можно с большой долей уверенности сказать, что вновь обратившийся заемщик поведет себя так же, как и те заемщики, характеристики которых очень похожи на характеристики вновь обратившегося.

На основе построенной модели можно определять принадлежность потенциального заемщика к одному из классов. Для этого необходимо воспользоваться диалоговым окном "Эксперимент" программы Tree Analyzer рисунок 3.4 , в котором, последовательно отвечая на вопросы, можно получить ответ на вопрос: "Давать ли кредит".
Рисунок 3.4 — Окончательное решение по выдаче кредита

1 2 3 4 5 6