АнализDeepSat(SAT-4)AirborneDataset. Анализ DeepSat (SAT-4) Airborne Dataset. DeepSat (sat4) Airborne Dataset Общая информация
Скачать 1.82 Mb.
|
DeepSat (SAT-4) Airborne DatasetОбщая информацияДатасет состоит из изображений, которые были извлечены из набора данных Национальной программы создания изображений сельского хозяйства (NAIP), и представляющих собой изображения 6000 пикселей в ширину и 7000 пикселей в высоту, размером около 200 мегабайт каждый. Для составления датасета были извлечены фрагменты изображений 28*28 пикселей из множества сцен , охватывающих различные ландшафты.Содержание датасета
Целевая задачаСоздать классификатор, который может определять к какому типу ландшафта относится изображенная на снимке местность. Мета информацияФормат данных: csv-файлы. Количество векторов: 400000 обучающих, 100000 тестовых Количество атрибутов: 28*28(размер)*4(каналы) = 3136 Тип данных: integer (0...255) Количество классов: 4 (barren land, trees, grassland and other) Пропущенных данных и аномалий обнаружено не было.Предлагаемый ML алгоритмТак как поставленную задачу можно отнести к разделу «Распознавание образов и классификация», где в качестве образцов выступают изображения, то наиболее подходящим способом решения будет создание и обучение нейронной сети. Возможные архитектуры нейросетей, для решения данной задачи: Перцептрон Свёрточные нейронные сети Adam - алгоритм оптимизации замены для стохастического градиентного спуска для обучения моделей обучения Прост для реализации. Вычислительно эффективен. Маленькие требования к памяти. Хорошо подходит для задач, которые являются большими с точки зрения данных и / или параметров. Гиперпараметры имеют интуитивно понятную интерпретацию и обычно требуют небольшой настройки. Критерий качества (Функция потерь): Категориальная- кросс энтропия (categorical crossentropy) Также стоит заметить, что для использования кросс- энтропии в качестве критерия качества, необходимо использовать функцию активации softmax для выходного слоя нейронов. Нормализация данныхОдин из вариантов нормализации входных: Применяя данный способ к нашей задаче, получим следующую формулу для нормализации входных данных: Ожидаемая модель знанийОжидается, что после обучения, нейросеть сможет определять к какому классу относится местность на снимке: бесплодная земля, деревья, луга и другая. Предлагаемые методы и критерии оценки построенных моделейМатрица ошибок: Accuracy (Доля правильных ответов) Precision (Точность - Доля правильных ответов модели в пределах класса) Recall (Полнота - Способность алгоритма обнаруживать данный класс вообще) F-мера (Гармоническое среднее между точностью и полнотой) Вычисление времени затрачиваемого на обучение и времени прогнозирования. |