|
Лекция_1. Введение в анализ данных Грибин Максим Анатольевич
ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ» Грибин Максим Анатольевич Телефон: +7 (927) 887-88-73, +7 (902) 739 79-19 E-mail: gribin.ma@gmail.com Работа с данными - Данные – это воспринимаемые человеком факты, события, сообщения, измеряемые характеристики, регистрируемые сигналы.
- Различают 4 типа шкал измерений:
- Шкала наименований
- Порядковая шкала
- Интервальная шкала
- Шкала отношений
Деление наблюдений на дискретные и непрерывные Этапы решения задачи анализа данных и их взаимосвязи - Анализ данных – это совокупность методов и средств извлечения из организованных данных информации для принятия решений.
- Основные этапы решения задачи делятся на пять основных этапов:
- Постановка задачи
- Ввод данных в обработку
- Качественный анализ
- Количественное описание данных
- Интерпретация результатов
Пример таблицы экспериментальных данных | | Признаки
| | | | | | | | Год ввода услуги
| Популярность услуги (%)
| Тариф (руб.)
| Плата от организации (руб.)
| | | | | | | | «А»
| «Б»
| ∑
| Объекты
| Интернет
| 2000
| 8
| 0,26
| 1200
| 120
| 1320
| | Местная связь
| 1990
| 75
| 0,10
| 7600
| 8000
| 15600
| | Меж/гор. связь
| 1993
| 7,5
| 4,5
| 450
| 0
| 450
| | Меж/народн. связь
| 1995
| 3,5
| 9
| 360
| 0
| 360
| | Передача данных
| 1995
| 4,1
| 1,3
| 0
| 10
| 10
| | Радиотрансляция
| 1992
| 2,7
| 1,2
| 25
| 250
| 275
| | Мобильная связь
| 2002
| 3
| 2,2
| 750
| 0
| 750
| Анализ данных на качественном уровне № объекта
| Популярность услуги (%)
| 1
| 8
| 2
| 75
| 3
| 7,5
| 4
| 3,5
| 5
| 4,1
| 6
| 2,7
| 7
| 3
| Значение признака «Популярность услуги»
Основные задачи при качественном анализе - Экономичное, или информативное, описание данных
- Группировка (классификация) объектов
- Исследование зависимости одного признака от остальных (описание целевого признака)
- Распознавание образов (классификация с обучением)
Содержательная постановка задачи: найти небольшое число наиболее важных свойств (характеристик, особенностей) исследуемого явления. Формальная постановка задачи: устранить дублирующие друг друга признаки или найти (построить) новые признаки (меньшее число), описывающие данные. Содержательная постановка задачи: среди множества исследуемых объектов найти группы с похожими свойствами. Формальная постановка задачи: обнаружить в пространстве описания компактные распределения точек. Содержательная постановка задачи: описать взаимосвязь (зависимость) избранного свойства исследуемых объектов от остальных свойств. Функциональная постановка задачи: найти функциональную зависимость, приближенно описывающую изменение целевого признака при изменении других признаков. Содержательная постановка задачи: найти правило, пользуясь которым можно определить принадлежность любого объекта к одному из выданных образов (классов объекта). Функциональная постановка задачи: найти в пространстве описания область, разделяющую группу точек, соответствующих различным образам, и описать ее как функцию исходных признаков; найти к какой группе точек (образу) относятся заданные объекты. Принятие решений на этапе интерпретации результатов - Прекращение дальнейшей обработки, т.к. поставленные ранее цели достигнуты;
- Решение о продолжении обработки данных с использованием других методов, возможно, с коррекцией данных;
- Решение о недостаточности данных или о том, что данные не содержат достаточной информации об исследуемом явлении. В этом случае анализ начинается заново.
|
|
|