Поручиков М.А. Анализ данных. А. поручиков
Скачать 2.76 Mb.
|
Построение системы анализа данныхМожно предложить следующий общий алгоритм построения системы анализа данных: Постановка задачи. Определение источников данных. Выбор метода и алгоритма обработки данных. 4 Выбор аппаратной платформы. 5 Выбор или разработка программного обеспечения. 6 Верификация построенной системы. Отметим, что шаги 3 - 5 тесно связаны друг с другом: например, изменение аппаратной платформы может повлечь необходимость повторной разработки программного обеспечения. Вопросы для самоконтроля1 Дайте определение понятия «анализ данных». 2 Перечислите основные задачи анализа данных. Приведите примеры применения методов анализа данных. Приведите пример актуального направления в области анализа данных. Приведите алгоритм построения системы анализа данных. Практические заданияНайдите в сети Интернет два сайта, на которых используются системы прогнозирования. Найдите в сети Интернет два сайта, на которых используются рекомендательные системы. Пользуясь системой SCOPUS, проанализируйте динамику количества публикаций за пять лет по направлениям Deep Learning, Big Data, Recommender Systems, Social Network Analysis. Пользуясь системой SCOPUS, найдите пять публикаций с наибольшей цитируемостью публикаций за последние десять лет по направлениям Deep Learning, Big Data, Recommender Systems, Social Network Analysis. Пользуясь системами SCOPUS, Web of Science, E-library (РИНЦ), выявите нескольких ведущих ученых в сфере анализа данных. СБОР И ПОДГОТОВКА ДАННЫХ Общие сведенияАнализ данных включает три основных этапа (рис. 2). Сбор данных Подготовка данных Обработка данных Рис. 2. Этапы анализа данных Данные по виду можно подразделить на числовые и категориальные. Числовые данные (Numerical Data) – это данные, характеризующие состояние какого-либо параметра изучаемого объекта. Наиболее часто такие данные бывают представлены вещественными числами. Примерами числовых данных являются заработная плата, население страны, артериальное давление, температура воздуха. Категориальные данные (Categorical Data) – это данные, образующие признак принадлежности к какой-либо группе. Примерами категориальных данных являются экзаменационная оценка, цвет автомобиля, уровень образования человека. В фрагменте набора данных по маркетинговой кампании в банке [13] поля Age и Balance являются числовыми, а поля Job, Marital, Education и Housing – категориальными (табл. 2). Таблица 2. Анкетные данные клиентов банка
|