Бондарева А. И. Основы машинного обучения
Скачать 0.74 Mb.
|
Бондарева А. И. Основы машинного обучения Background • матан • линал • теория вероятностей • математическая статистика • Python ML Основные определения • Анализ данных, или машинное обучение • X (признаки, факторы, независимые переменные) • Y (целевая переменная, зависимая переменная, таргет) • Алгоритм/модель • Функционал качества • Функционал ошибки/функция потерь Основные определения • Обучение • Предобработка данных • Нормирование • Выбросы • Шумовые признаки • Переобучение Основные этапы решения задачи анализа данных • Постановка задачи • Выделение признаков • Формирование выборки • Выбор метрики качества • Предобработка данных • Построение модели • Оценивание качества модели Постановки задач • Supervised learning (обучение с учителем): • Задача регрессии • Задача классификации (бинарная/многоклассовая) • Частичное обучение Постановки задач • Unsupervised learning (обучение без учителя): • кластеризация • оценивание плотности • визуализация • понижение размерности Ресурсы по первой лекции • https://github.com/esokolov/ml-course-hse/blob/master/2020-fall/lecture- notes/lecture01-intro.pdf • https://www.coursera.org/learn/vvedenie-mashinnoe-obuchenie#syllabus (теория, неделя 1) Ресурсы (курсы) • https://github.com/esokolov/ml-course-hse/tree/master/2020-fall/lecture- notes • Курс Машинное обучение (coursera, Stanford - Andrew Ng) • Специализация Машинное обучение и анализ данных (coursera, МФТИ) • Курс Введение в машинное обучение (coursera, ВШЭ) • Курс Введение в Data Science и машинное обучение (stepik, Bioinformatics Institute) Ресурсы (книги) • Pattern recognition and machine learning • Introduction to Machine learning with Python • Machine learning: a Probabilistic Perspective Ресурсы background • Специализация Математика в машинном обучении (coursera, Imperial College London) • Курс Введение в математический анализ, Математический анализ (части 1 и 2) (stepik, CS центр) • Учебник Линейная алгебра (Рудык Б.М.) • Теория вероятностей (stepik, CS центр) • Основы статистики (части 1, 2 и 3) (stepik, Bioinformatics institute) • Основы анализа данных (YouTube, курсы в плейлистах - Борис Демешев, ВШЭ) Темы • Линейная регрессия, линейные модели классификации • Деревья, бэггинг, случайные леса, градиентный бустинг • Кластеризация • Генерация признаков • Валидация и отбор признаков • DL, CV, NLP, SAVN, RecSys Линейная регрессия Материалы • Линейная алгебра: Операции над матрицами и векторами • Математический анализ: производная, градиент, оптимизация • Статистика: статистические показатели, законы распределения • Теория вероятностей: метод наименьших квадратов, метод максимального правдоподобия |