Тема 4 (2). Лекции Концепции и возможности научной визуализации. Виды визуализации
Скачать 2.6 Mb.
|
Визуализация данных.Визуализация данных – это часть визуализации информации, процесс представления, как правило количественных, данных в виде простых для восприятия таблиц и графических образов (геометрических фигур, линий, точек и изображений). Выбор наиболее подходящего способа визуализации данных зависит от их вида 11: 10 Авербух В.Л. К теории компьютерной визуализации // Вычислительные технологии. 2005. Т. 10. № 4. С. 21-51. 11 Барсегян, А. А. Анализ данных и процессов: учеб. пособие / А. А. Барсегян, М. С. Куприянов, И. И. одномерные данные – массивы с одним признаком, временные ряды; двумерные данные – массивы с двумя признаками, географические координаты; многомерные данные – массивы с большим количеством признаков; текстовые документы; иерархические и связные данные – данные, отражающие подчиненность объектов; алгоритмы и программы. Для непосредственной визуализации перечисленных выше типов данных возможно применить огромное количество инструментов, выбор которых ложится на исследователя и, прежде всего, должен отвечать требованиям наглядности и удобства дальнейшего анализа. Типология методов представления данных: табличный и графические.Существует несколько классификации типов методов визуализации и представления данных. Прежде всего, их подразделяют на табличные и графические методы представления информации. Таблицапредставляет форму рационального изложения данных и результатов исследования явлений и процессов в наглядном и компактном виде. Таблица 4.1 – Объем валового внутреннего продукта Российской Федерации за 2011-2019 г.
Холод, М. Д. Тесс, С. И. Елизаров. — 3-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2009. — 512 с.: Графическийметодпредставления–визуализация данных с помощью графических образов. Графическая визуализация состоит из следующих типов методов визуализации: Рисунок 4.2 – Классификация типов методов визуализации данных. Рассмотрим подробнее каждый тип и приведем примеры: Визуализаторы общего назначения – стандартные одномерные, двухмерные и трехмерные образы. Одномерные (1D) – данные и информация представляется в виде одномерных объектов, представленных линейно или по окружности. а. Круговая диаграмма (секторная диаграмма, Pie Chart) – служит для отображения структуры изучаемой совокупности. Главный параметр здесь – угол между радиусами. Аналогичную функцию выполняет кольцевая диаграмма (Donut Chart). Например, данные о структуре музеев (табл. 4.2) можно представить в виде круговой (рис. 4.3) и кольцевой (рис. 4.4.) диаграмм. Таблица 4.2 – Число музеев в Российской Федерации в 2018 г.12
0,8% 1,6% 0,8 искусствоведческие исторические краеведческие естественно-научные научно-технические комплексные отраслевые, специализированные и прочие Рисунок 4.3 – Число музеев в Российской Федерации в 2018 г. искусствоведческие исторические краеведческие естественно-научные научно-технические комплексные отраслевые, специализированные и прочие Рисунок 4.4 – Число музеев в Российской Федерации в 2018 г б. Столбиковаядиаграмма(Bar Chart) – используется для отображения значений признака у разных единиц совокупности. По горизонтальной оси откладываются деления, обозначающие единицы совокупности, а высота столбика обозначает значение изучаемого признака. Столбиковая диаграмма может быть простой, с группировкой, с накоплением и нормированной. Аналогичную функцию выполняет полосовая диаграмма (линейчатая , ленточная диаграмма), где горизонтальная и вертикальная ось меняются местами. 12 Российский статистический ежегодник. 2019: Стат.сб./Росстат. - Р76 М., 2019. [Электронный ресурс] / ФСГС.URL: https://www.gks.ru/storage/mediabank/Ejegodnik_2019.pdf Например, данные таблицы 4.3 можно представить в виде столбиковой и полосовой диаграммы следующим образом: Таблица 4.3 – Использование интернета населением для дистанционного обучения по странам в 2018 (в % от численности населения в возрасте 15–74 лет, использующего интернет).13
25 Россия Доля населения, % 20 Чехия Германия 15 Франция Италия 10 Япония Эстония 5 Великобритания Финляндия 0 Швеция Республика Корея США 0 5 10 15 20 25 Доля населения, %
Двумерные(2D)– представление информации осуществляется в виде геометрических фигур в двумерной системе координат. 13 Цифровая экономика: 2020 : краткий статистический сборник / Г.И. Абдрахманова, К.О. Вишневский, Л.М. Гохберг и др.; Нац. исслед. ун-т «Высшая школа экономики». – М.: НИУ ВШЭ, 2020. [Электронный ресурс] / НИУ ВШЭ. URL: https://issek.hse.ru/mirror/pubs/share/323871553 а. Линейный график (Line Graph) – служит для отображения развития явления во времени. Горизонтальная ось отражает время, вертикальная – уровни явления. Например, динамика развития туризма в России в 2015-2019 графически будет отображаться на рисунке 4.7. Таблица 4.4 – Показатели туристического потока в России в 2015-2019 гг., тыс.14
55000 35000
15000 Число выездных туристских поездок граждан РФ в зарубежные страны Рисунок 4.7 – Показатели туристического потока в России в 2015-2019 гг., тыс. поездок б. Гистограмма(Histogram) – применяется для графического отображения интервального вариационного ряда распределения. При построении гистограммы на оси абсцисс откладываются величины интервалов, а по оси ординат – частоты соответствующих интервалов. Гистограмму очень часто путают со столбиковой диаграммой. Основное отличие данных видов графиков заключается в том, что в случае столбиковой диаграммы на вертикальной оси может быть любой показатель, а в гистограмме это всегда частоты. Кроме того, в гистограммах горизонтальная ось всегда отражает интервалы значений признака, а не сами единицы совокупности. Например, распределение безработных по возрастным группам в РФ за 2018 г. (табл. 4.5) можно представить в виде гистограммы (рис. 4.8). 14 Добровольный национальный обзор хода осуществления Повестки дня в области устойчивого развития на период до 2030 года [Электронный ресурс] / Аналитический центр при Правительстве Российской Федерации. URL: https://ac.gov.ru/uploads/2-Publications/analitika/DNO.pdf Таблица 4.5 – Распределение безработных по возрастным группам в РФ за 2018 г.15 20,0 15,0 10,0 5,0
0,0 19 24 29 34 39 44 49 54 59 64 Рисунок 4.8 – Распределение безработных по возрастным группам в РФ за 2018 г. в. Диаграмма рассеяния (точечная диаграмма, корреляционное поле, корреляционное облаков, диаграмма разброса, Scatter Plot) – вид графиков, который применяется для визуального определения направления и силы связи между двумя признаками. На оси Ох откладываются значения факторного признака, а по оси Оy – результативного, в результате образуется «облако» точек. 15 Сайт ФСГС [Электронный ресурс] URL: https://www.gks.ru Таблица 4.6 – Статистические данные по регионам Сибирского федерального округа в 2016 г.16 350 300 Число разбоев, ед. 250 200 150 100 50 0 0 500 1000 1500 2000 2500 Объем продаж водки, тыс. дек.л.
Рисунок 4.8 – Диаграмма рассеивания регионов СФО по продаже водки, тыс. дек. л. и числу совершенных разбоев, ед. в 2016 г. Например, имеются статистические данные по регионам Сибири в 2016 году (табл. 4.6). Предположим, что факторным признаком является продажа водки, а результативным – число разбоев. Из полученного графика можно сделать вывод о том, что чем больше в регионе продажа водки, тем больше население совершает разбоев. 3. Трехмерные (3D) - Информация представляется в виде трехмерных визуальных объектов. Пример: диаграммы поверхностей. а. Диаграмма поверхности (3-D surface plot) – это график функции двух переменных или диаграмма разброса по трем признакам. На рисунке 4.9 представлен пример диаграммы поверхности – динамика кривой доходности облигаций Федеральной резервной системы США в 1990-2015 гг. В качестве оси Оx здесь выступает время в виде месяцев и лет, ось Оz – срок обращения облигации (от 1 месяца до 30 лет), а ось Oy–процент доходности облигации. 16 Цифровая экономика: 2020 : краткий статистический сборник / Г.И. Абдрахманова, К.О. Вишневский, Л.М. Гохберг и др.; Нац. исслед. ун-т «Высшая школа экономики». – М.: НИУ ВШЭ, 2020. [Электронный ресурс] / НИУ ВШЭ. URL: https://issek.hse.ru/mirror/pubs/share/323871553 Рисунок 4.9 –Динамика кривой доходности облигаций Федеральной резервной системы США в 1990-2015 гг.17 б. Пузырьковая диаграмма (Bubble Chart) – это способ представления данных трех признаков, ее можно рассматривать как дальнейшее развитие диаграммы рассеивания. Каждый объект, как и в диаграмме рассеивания имеет две координаты (по горизонтальной и вертикальной осях) и третье измерение – размер шара. Например, на рисунке 4.10 представлено распределение стран мира по размерам среднедушевого ВВП и ожидаемой продолжительности жизни, размер шара – численность населения страны. 17 A 3-D View of a Chart That Predicts The Economic Future: The Yield Curve [Электронный ресурс] URL: https://www.nytimes.com/interactive/2015/03/19/upshot/3d-yield-curve-economic-growth.html Рисунок 4.10 – Распределение стран мира по размерам среднедушевого ВВП (долларов США) и ожидаемой продолжительности жизни (лет) в 2019.18 |