Тема 6 (2). Лекции Технологии машинного обучения Технологии Nosql data Mining Глубокое обучение
Скачать 31.09 Kb.
|
Тема 6. Программные средства и системы хранения и обработки данныхПлан лекции: Технологии машинного обучения Технологии NoSQL Data Mining Глубокое обучение 6.5. Сервисы и программное обеспечение для обработки данных Технологии машинного обученияВажную роль при обработке больших данных играют технологии машинного обучения (англ. – machine learning), основной особенностью которых является то, что они не решают задачу напрямую, а обучаются на ранее известных примерах (дата-сетах) или каким-либо другим способом с целью формирования способности распознавать такие случаи в дальнейшем. Машинное обучение лежит на стыке многих других наук, в том числе, теории вероятностей, математической статистики, численных методов, методов оптимизации, дискретного анализа и ряда других. Среди основных задач, которые решают технологии машинного обучения, следующие. Классификация – отнесение заданного объекта к одному из нескольких заранее определенным классам (категориям) на основе набора признаков, извлекаемых из этого объекта. Ответы, как правило, представлены в виде номера класса, к которому программа относит данный объект. В самом простом случае, когда имеется только два класса, ответы могут быть следующими: болен ли человек, токсично ли химическое вещество, является ли деталь бракованной и т.д. Задачи классификации важны для распознавания лиц, биометрических параметров, клеток крови, а также космических и аэрофотоснимков. Кластеризация – разбиение множества объектов на подмножества (кластеры) группы согласно некоторым признакам. Цель кластеризации – добиться того, чтобы в каждом из подмножеств оказались объекты с похожими свойствами. Примерами такого вида задач могут служить разделение клиентов банка по уровню платежеспособности, распределение химических веществ на классы токсичности, разбиение клиентов компании по их предпочтениям и пр. Группировка объектов в кластеры позволяет сократить их число, выявить скрытые закономерности между ними и облегчить анализ. Регрессия – выявление влияния одних объектов на другие. Например, как характер человека влияет на его потенциальные покупки или семейный статус на ожидаемый доход. С использованием методов регрессионного анализа можно строить прогнозы поведения людей и развития событий. Уменьшение размерности – сокращение числа признаков объекта для удобства их последующей обработки. Выявление аномалий – распознавание нестандартных случаем. Примерами таких задач являются: обнаружение сетевых атак или выявление мошеннических действий с банковскими картами. Задачи, связанные с выявлением аномалий, принципиально отличаются от задач классификации тем, что аномалии являются крайне редкими и, следовательно, обучающих примеров может быть недостаточно для эффективного обучения системы их распознавания. |