мИША_ИСПРАВЛЕННОЕ. Оглавление введение 2 задание для контрольной работы 3 заключение 8 Введение 3 Задание для контрольной работы 4 Ход работы 5 Заключение 13 введение
Скачать 2.18 Mb.
|
ОГЛАВЛЕНИЕ ВВЕДЕНИЕ 2 ЗАДАНИЕ ДЛЯ КОНТРОЛЬНОЙ РАБОТЫ 3 ЗАКЛЮЧЕНИЕ 8 Введение 3 Задание для контрольной работы 4 Ход работы 5 Заключение 13 ВВЕДЕНИЕКонтрольная работа предполагает выполнение одного задания. Задание относится к изучению технологий понижения размерности анализируемых данных, позволяющих существенно снизить объем обрабатываемой информации. Цель задания — ознакомление с инструментами разработки, а также приобретение практических навыков в работе с графической информацией и понижения размерности данных. Помимо ознакомления с методическим пособием для выполнения работы была изучена литература, посвященная методу главных компонент. Контрольную работу можно выполнить в любой среде разработки и любым удобным языком программирования. Данная работа выполнена в окружении, подробно рассмотренном в методическом пособии: в среде RStudio и при помощи языка программирования R. ЗАДАНИЕ ДЛЯ КОНТРОЛЬНОЙ РАБОТЫИсследовать эффективность методов PCA и SVD для понижения размерности данных. В качестве исходных данных для анализа следует самостоятельно выбрать 10 изображений в формате .jpg. Размер изображений должен быть не менее 400 х 400 пикселей. В ходе исследования необходимо проделать следующее: Выбрать и обосновать количество главных компонент, достаточное для качественной визуализации; Оценить выигрыш сжатого изображения по объему, по сравнению с оригиналом; Оценить количество «утраченной» информации; Выяснить зависит ли достаточное число компонент для качественной визуализации от характера изображения (если да, то оценить эту зависимость). Примечание: размерность всех сжатых изображений должна быть одинаковой. ХОД РАБОТЫ Рассмотрим использование метода главных компонент для понижения размерности изображения и оценим потери визуально. Для этого возьмем небольшой файл формата .jpg и посмотрим, какое число главных компонент будет достаточным для представления изображения в допустимом качестве. Будем вычислять главные компоненты, используя сингулярное разложение матриц. Оно выполняется с помощью функции svd, включенной в базовое программное обеспечение языка R. Эта функция вычисляет три матрицы S, U и V сингулярного разложения. Их мы будем использовать как основу и выбирать из них разное число главных компонент k, формируя сжатые изображения. Качество получаемых изображений будем оценивать визуально. Решение задачи выполним в среде RStudio, листинг кода представлен на рисунке 1. Рис.1 – Листинг кода программы для понижения размерности Матрицы S, U и V будем использовать как основу и выбирать из них разное число главных компонент k. Сформируем различные матрицы Xk, формирование проведем в цикле для числа компонент k = 50, 150, 300 и 600. Сначала сформируем усеченные матрицы Uk, Vk и Sk (строки 23-25). Затем в строке 26 выполним умножение сформированных матриц для формирования сжатых изображений. Результатом работы этой программы будет четыре изображения, отличающихся по качеству (рис. 2): Рис.2 – Изображения для k = 50, 150, 300 и 600 Полагаем, что допустимым качеством обладает изображение для k = 300 сингулярных значений. Посмотрим, какой выигрыш мы можем получить, используя его вместо оригинала (рис.3). Рис.3 – Сравнение изображений Оставшиеся девять изображений были сжаты таким же образом: Рис.4 – Изображения для k = 50, 150, 300 и 600 Рис.5 – Изображения для k = 50, 150, 300 и 600 Рис.6 – Изображения для k = 50, 150, 300 и 600 Рис.7 – Изображения для k = 50, 150, 300 и 600 На рис.3 приведено такое сравнение, где показано, что вместо 1048576 пикселей нам потребуется всего 794400, то есть, выигрыш составляет 1.4 раза c сохранением всех мелких деталей. Для оценки количества информации, которое мы потеряем, заменив оригинальное изображение на сжатое, можно поступить следующим образом. Если суммарное количество значений всех главных компонент принять за 100% информационного наполнения оригинала, то сумма значений k главных компонент сжатого изображения определит его информационное наполнение. Разность вычисленных таким образом величин и даст оценку «потерянной». ЗАКЛЮЧЕНИЕВ ходе выполнения задания были выполнены все перечисленные в методическом пособии этапы контрольной работы: Было выбрано и обосновано количество главных компонент, достаточное для качественной визуализации; Был оценен выигрыш сжатого изображения по объему, по сравнению с оригиналом; Было оценено количество «утраченной» информации; Было выяснена зависимость достаточного числа компонента для качественной визуализации от характера изображения. В практической части были использованы JPG-изображения размера 400х400. Главные компоненты были вычислены при помощи сингулярного разложения матриц, формирование сжатых изображений базировалось на выборе разного числа главных компонент k. |