машинное обучение. Машинное обучение Машинное обучение англ. Machine Learning
Скачать 227.26 Kb.
|
Машинное обучение Машинное обучение (англ. Machine Learning) — раздел искусственного интеллекта, изучающий методы построения моделей, способных к обучению. Машинное обучение тесно связано с интеллектуальным анализом данных (Data Mining); иногда его даже рассматривают как составную часть интеллектуального анализа данных. В самом общем виде можно определить назначение машинного обучения как автомати- зацию (полную или частичную) решения сложных профессиональных задач в самых раз- ных областях деятельности. Различают два типа машинного обучения: индуктивное обучение, или, что то же самое, обучение по прецедентам, основан- ное на выявлении закономерностей в эмпирических данных (понятие «обучение по прецедентам» иногда используют как синоним понятия «машинное обучение»); дедуктивное обучение, предполагающее формализацию знаний экспертов и созда- ние на их основе компьютерных баз знаний (понятие «дедуктивное обучение» ча- сто относят к области экспертных систем). Машинное обучение – дисциплина синтетическая, она использует математический аппа- рат целого ряда дисциплин, в частности: математической статистики; теории и методов оптимизации; дискретной математики. Общая задача машинного обучения (обучения по прецедентам) Имеется некоторое множество объектов (также: ситуаций) и множество возможных от- кликов (также: ответов, реакций). Между откликами и объектами существует некоторая зависимость, но она неизвестна. Известно лишь некоторое конечное множество преце- дентов, т.е. пар «объект, отклик», называемое обучающей выборкой. На основе этих данных требуется восстановить зависимость отклика от объектов (точнее, от их свойств). Иными словами, задача машинного обучения состоит в том, чтобы найти модель (т.е. формулу или, если это формулу указать невозможно, то алгоритм), с помощью ко- торой для каждого нового объекта (точнее, набора его свойств) можно получить соответ- ствующий отклик. Поскольку отклик, найденный с помощью построенной модели, вооб- ще говоря, имеет ошибку, возникает также вопрос измерения точности ответов (т.е. оценки качества модели). Для этого вводят некоторый функционал качества. На приведѐнной ниже схеме проиллюстри В реальности исходные данные об объектах (т.е. данные обучающей выборки) могут быть неполными, неточными и даже нечисловыми. В каждом случае используются различные методы машинного обучения, поэтому они очень разнообразны и число их очень велико. Общая задача машинного обучения проиллюстрирована на приведѐнной ниже схеме (Рис.1). Рис. 1. Иллюстрация общей задачи машинного обучения. Машинное обучение, как правило, имеет дело с обработкой очень больших объѐмов дан- ных. Среди задач, решаемых с помощью методов машинного обучения, можно выделить сле- дующие основные классы: Восстановление плотности распределения вероятности по выборочным дан- ным – наблюдаемым значениям случайной величины (заметим, что эта задача решается также в рамках математической статистики – по выборке строится гисто- грамма, выдвигается гипотеза о законе распределения, находятся выборочные оценки параметров предполагаемого распределения, после чего гипотеза проверя- ется по тому или иному критерию (Хи-квадрат, Колмогорова-Смирнова….)); Нахождение коэффициентов регрессии (это весьма широкий класс задач, реше- нием которых занимаются различные дисциплины: анализ данных, эконометрика и др.. Задачи регрессионного анализа, в свою очередь, допускают различные класси- фикации. Так, например, в зависимости, от количества факторов (количества наблюдаемых свойств объектов) различают задачи однофакторной и множествен- ной регрессии; в зависимости от используемой формулы различают линейную или нелинейную регрессию. Найденные коэффициенты используются для целей про- гноза. Кроме того, с помощью построенной регрессионной модели можно оценить степень зависимости между наблюдаемым признаком (фактором, предиктором) и переменной отклика, а также решить ряд других подзадач); Классификация – по имеющемуся множеству объектов, для которых известно, к какому классу каждый из них относится, нужно предложить правило, которое поз- волило бы отнести новый объект к одному из возможных классов. Среди приложений машинного обучения можно назвать, например, такие области как распознавание образов; распознавание речи; распознавание рукописного ввода; распознавание жестов; диагностика (медицинская, техническая); биоинформатика; хемоинформатика; прогнозирование временных рядов; обнаружение спама; биржевой технический анализ; ранжирование результатов поиска; создание рекомендательных систем….. Для решения задач машинного обучения используется самое разное программное обеспе- чение. В последние годы всѐ большую популярность приобретает пакет R – точнее, кросс- платформенная бесплатно распространяемая среда разработки R. |