Поручиков М.А. Анализ данных. А. поручиков
Скачать 2.76 Mb.
|
ВВЕДЕНИЕДанное учебное пособие предназначено для студентов, обучающихся по программе высшего образования по направлению «Бизнес-информатика» и направлено на формирование следующих компетенций согласно соответствующему федеральному государственному образовательному стандарту [1]: способность к самоорганизации и самообразованию; способность работать с компьютером как средством управления информацией, работать с информацией из различных источников, в том числе в глобальных компьютерных сетях; способность использовать основные методы естественно- научных дисциплин в профессиональной деятельности для теоретического и экспериментального исследования; способность использовать соответствующий математический аппарат и инструментальные средства для обработки, анализа и систематизации информации по теме исследования; умение готовить научно-технические отчеты, презентации, научные публикации по результатам выполненных исследований. Для успешного освоения материала, представленного в учебном пособии, необходимо владение основами линейной алгебры и математического анализа, а также базовыми навыками работы с электронными таблицами Microsoft Excel и оформления документов в текстовом редакторе (например, Microsoft Word или OpenOffice Write). Пособие построено по модульному принципу. Каждый модуль включает теоретический материал, вопросы для самоконтроля и задания для самостоятельного решения, лабораторные работы. Выполнение лабораторных работ предполагается с помощью специализированного программного обеспечения, размещенного в курсе «Анализ данных» системы дистанционного обучения (СДО) Самарского университета [2]. ОСНОВЫ АНАЛИЗА ДАННЫХРоль анализа данных в современном миреСовременный этап развития человечества характеризуется экспоненциальным ростом количества накопленной информации. Согласно исследованию [3], к 2007 году человечество имело возможность хранения информации объемом 2.9·1020 байт. Большой объем данных порождают научные эксперименты. Так, в апреле 2016 года в открытый доступ поступили 300 Тбайт экспериментальных данных, полученных на большом адронном коллайдере [4]. Функционирование многих технических систем также сопровождается сбором большого количества данных. Например, самолет Боинг-787 генерирует около 500 Гбайт данных за один полет [5]. Однако для выделения из накопленных данных полезной информации требуется определенная обработка этих данных. Также существует тенденция к переложению функции принятия решений – изначально функции человека – на так называемые экспертные системы (специализированные информационные системы). Экспертные системы позволяют повысить скорость и точность принятия решений. Как правило, функционирование экспертных систем связано с анализом большого объема данных (рис. 1). Анализ ситуации Принятие решения Исполнение решения Рис. 1. Процесс управления В целом анализ данных можно определить как процесс поиска скрытых закономерностей и генерации новых знаний. К основным задачам анализа данных можно отнести прогнозирование, классификацию, поиск схожих черт, выдачу рекомендаций, выявление отклонений. Анализ данных – междисциплинарная область знаний, находящаяся на стыке математики, теории алгоритмов и информационных технологий. В англоязычных источниках для обозначения сферы анализа данных используется термины Data Mining и Machine Learning (машинное обучение). Согласно энциклопедии Британника, машинное обучение является дисциплиной направления «искусственный интеллект» (Artificial Intelligence), в свою очередь принадлежащего к области компьютерных наук (Computer Science) [6]. Необходимость анализа больших объемов накопленных данных привела к созданию специализированных подразделений во многих компаниях. Некоторые компании, например Яндекс, реализуют собственные образовательные проекты в этой области [7]. |