Задание №2. Задание 2 Использование инструментов "Analyze Key Influencers" и "Detect Categories" Задание Проведите анализ в соответствии с рассмотренным в этом разделе примером Анализ ключевых факторов влияния
Скачать 316.13 Kb.
|
Задание №2 Использование инструментов "Analyze Key Influencers" и "Detect Categories" Задание 1. Проведите анализ в соответствии с рассмотренным в этом разделе примером «Анализ ключевых факторов влияния». Задание 2. На том же наборе данных проанализируйте зависимость уровня дохода от образования, семейного положения, типа работы, пола, возраста и региона проживания клиента. Опишите результаты. Дополните отчет сравнительным анализом для самого низкого и следующего за ним диапазона дохода. А затем — для самого низкого и самого высокого диапазона. Опишите результаты проведенного анализа и предложите их интерпретацию. Задание 3. Предложите свой вариант анализа данных, и пример использования полученных результатов. Задание 4. Переименуйте категорию Category 3. Задание 5. Проведите анализ параметров, характеризующих оставшиеся категории, и дайте им осмысленные названия. Инструмент Analyze Key Influencers позволяет узнать, как зависит интересующий нас параметр от других. При этом важно правильно определить, что и от чего может зависеть. Собственно в этом отчасти и заключается мастерство аналитика, основанное на его знании предметной области и используемых методов DM. В связи с тем, что будет оцениваться степень взаимного влияния параметров друг на друга, стоит сразу убрать из рассмотрения полностью независимые и наоборот, полностью зависимые атрибуты. Пусть, например, мы хотим оценить влияние различных факторов на уровень заработной платы человека. Если у нас есть поле, содержащее уникальный идентификатор (например, порядковый номер записи в таблице или номер паспорта), его стоит убрать из рассмотрения, как не влияющий на значение исследуемого параметра. Другой пример, пусть у нас есть значения заработной платы за месяц и за год (рассчитываемое как заработная плата за месяц, умноженная на 12). Мы знаем, что эти значения всегда связаны, искать зависимость одного от другого средствами DM не имеет смысла, а имеющаяся сильная зависимость скроет влияние других факторов, которое мы как раз и хотим выявить. Теперь определим, от чего зависит решение клиента о покупке велосипеда. Нажимаем на кнопку Analyze Key Influencers и указываем в качестве целевого столбца столбец «Приобрел велосипед» (рис.5.16). Перейдем по ссылке «Choose columns to be used for analysis», чтобы указать параметры, влияние которых мы хотим оценить (рис.5.17). Здесь сбросим отметку напротив «ID» и «Приобрел велосипед» (хотя последнее можно и не делать). После запуска процедуры анализа (по кнопке Run, рис.5.16) будет сформирован отчет о факторах влияния и предложено формирование дополнительного сравнительного отчета. В основном отчете указывается столбец (Column), его значение (Value), значение целевого столбца, с которым оно связывается (Favors) и уровень влияния (Relative Impact), оцениваемый по шкале от 0 до 100 балов. Из представленного на рисунке 5.18 отчета видно, что на решение не покупать велосипед в наибольшей степени влияет наличие 2-х автомобилей. В то же время не следует воспринимать оценку 100 баллов, как признак того, что в 100% случаев владельцы 2-х машин велосипед не покупали (посмотрите набор данных, там есть и сочетания «2 машины – велосипед куплен», но их меньшинство). Второй по уровню влияния на отказ от покупки фактор – «Семейное положение» =«женатый, замужняя». Наибольшее влияние на положительное решение о приобретении велосипеда оказывать отсутствие у клиента машины. Если добавить сравнительный отчет для двух выбранных значений (рис. 5.18, Add Report), то можно увидеть, чем отличается выбор в пользу одного значения целевого столбца от выбора в пользу другого (рис.5.19). В нашем примере просто произойдет перегруппировка исходного отчета, т.к. возможных значений всего 2. В других случаях, дополнительный отчет позволяет провести детальное сравнение двух выбранных вариантов. Как отмечается в литературе [1], если целевой или другой столбец, обрабатываемый инструментом Analyze Key Influencers, содержит много различных числовых значений, то проводится дискретизация. Весь интервал значений делится на несколько диапазонов, каждый из которых рассматривается как одно из возможных значений (например, вместо точного значения 2,5 мы получим «диапазон от 2 до 3»). Инструмент Detect Categories позволяет решить задачу кластеризации, т.е. разделения всего множества вариантов на естественные группы, члены которых наиболее близки по ряду признаков. Подобная задача также называется задачей сегментации. В нашем наборе данных для Excel есть описание множества клиентов. Нужно разделить их на небольшое количество групп, чтобы отдельным группам сформировать наиболее подходящее им специальное предложение. В связи с тем, что в процессе работы инструмент добавляет данные в исходную таблицу, рекомендуется перед началом работы сделать ее копию (рис.5.20). Рис.5.20. Создание копии листа После этого нажимаем кнопку Detect Categories и настраиваем параметры (рис.5.21). Здесь хочется обратить внимание на атрибут ID, который не имеет смысла учитывать в ходе анализа: он автоматически исключен инструментом. В нашем случае, остальные атрибуты можно оставить. Еще раз хотелось бы повторить, что этот выбор каждый раз делается исходя из особенностей предметной области. Кроме выбора параметров, можно явно задать число категорий (или оставить настройку по умолчанию – автоматическое определение). Также по умолчанию поставлен флажок «Append a Category column to the original Excel table», указывающий, что к записям в исходной таблице будет добавлен столбец с названием формированный отчет содержит 3 раздела. В первом – указаны определенные инструментом категории и число строк, попадающих в каждую из них (рис.5.22). Поле с названием категории допускает редактирование и можно сопоставить категории более осмысленное имя. Например, как будет показано ниже, для клиентов первой категории характерен низкий доход, и ее можно так и назвать. Когда введено новое название, везде, кроме диаграммы Category Profiles Chat, оно автоматически заменит «Category 1». Чтобы название поменять и на диаграмме, надо нажать Третий раздел отчета – это диаграмма профилей категорий. Она показывает количество строк данных в каждой категории с каждым значением выбранных параметров. По умолчанию отображается только один параметр. Для рассматриваемого примера это возраст. Но в нижней части диаграммы есть фильтр Column, с помощью которого можно изменить число параметров. Например, на рисунке 5.24 для каждой категории отображается распределение по возрасту и доходу. Из него видно, что клиенты переименованной нами категории «Низкий доход» на самом деле имеют очень низкий доход. А клиенты в «категории 3» в подавляющем большинстве очень молоды. |