задание 1. Решение Среднее в группе а 6,28
Скачать 18.73 Kb.
|
Ответьте на ряд приведенных вопросов: Сформулируйте одностороннюю альтернативу для теста двух рекламных баннеров по показателю кликабельности или CTR. Показатель кликабельности или CTR выше для первого баннера, чем для второго Сформулируйте двустороннюю альтернативу для теста двух моделей машинного обучения (новой и старой), предсказывающих дефолт заемщика. Метрика для анализа – доля верно угаданных меток классов (accuracy). При теста двух моделей машинного обучения (новой и старой), предсказывающих дефолт заемщика одинаково возможны и такая ситуация, когда доля верно угаданных меток классов (accuracy)в новой модели больше чем в старой, и такая, когда доля верно угаданных меток классов (accuracy)в старой модели больше чем в новой. Пусть есть две группы по семь установщиков интернета. Каждый установщик посещает в день некоторое количество клиентов. У нас есть две выборки, в которых измерено, сколько клиентов каждый установщик посетил. Группа А: 3, 8, 4, 6, 9 ,2, 12 Группа B: 6, 14, 8, 4, 16, 7, 19 Если предположить, что количество посещенных клиентов в обеих группах распределено нормально с неизвестными мат.ожиданием и дисперсией, можно ли сказать, что в среднем в этих двух группах установщики посещают различное количество человек за день? Решение: Среднее в группе А = 6,28 Среднее в группе В = 10,57 Полученный результат указывает на то, что в среднем в этих двух группах установщики посещают различное количество человек за день Что такое p-value? P-value – это вероятность получить значение статистики критерия равное наблюдаемому или более нетипичное по сравнению с наблюдаемым при условии, что нулевая гипотеза верна. Более неформально, p-value – это «жизнеспособность» нулевой гипотезы, которую мы оцениваем по имеющимся данным. Рассмотрим пример. У нас есть знакомый, который вдруг почувствовал себя нехорошо. Наша нулевая гипотеза заключается в том, что знакомый не болен, а просто переутомился перед сессией. Мы собираем различные данные, например, температуру тела, давление, другие симптомы, которые можно измерить количественно. По результатам анализа этих данных мы делаем вывод о том, что знакомый просто переутомился. Насколько мы оказались правы? Вероятность того, что значения показателей о здоровье, которые мы получили, действительно объясняются тем, что наш знакомый не болен, и есть p-value. Что нам дают эти сведения? Во-первых, понимание, что p-value – это вероятность, причем не простая, а условная. Поэтому значения p-value всегда будут принадлежать интервалу [0, 1]. Во-вторых, так как p-value – это вероятность того, что нулевая гипотеза жизнеспособна, чем выше p-value, тем лучше, если мы хотим, чтобы нулевая гипотеза не была отвергнута. Отметьте верные утверждения о p-value: при значении p-value > 0.1 мы можем утверждать, что различий между группами на самом деле нет p-value рассчитывается при условии того, что H0 верна p-value это вероятность того, что полученный результат мог быть вызван случайной ошибкой При помощи p-value исследователь не может оценить вероятность того, что H0 верна p-value показывает, с какой вероятностью мы можем отвергнуть нулевую гипотезу Как может быть сформулирована односторонняя альтернативная гипотеза (выберите варианты)? Расход топлива автомобиля марки А меньше, чем расход топлива у автомобиля марки B Бронепробитие фугасных и подкалиберных снарядов различается Курящие люди чаще болеют "центральным" раком легких, чем некурящие Средняя длина предложения в русском языке больше, чем в английском Какие утверждения верны об ошибке I-го рода? Принятие ложной альтернативной гипотезы Различия найдены там, где их нет Невозможно отказаться от истинной нулевой гипотезы Различия считаются достоверными, когда нулевая гипотеза верна Различия считаются достоверными, когда альтернативная гипотеза верна Достоверных различий не найдено, когда альтернативная гипотеза верна Производитель машин определенной марки заявляет в техпаспорте, что среднее значение потребления топлива у машины составляет 4.9 литра на 100 километров. В вашей случайной выборке из 25 машин вы определили, что средний расход топлива составляет 5.1 литра на 100 км (стандартное отклонение s = 0.4). Распределение расхода топлива у машин не отличается от нормального. Проверьте с использованием t-теста, значимо ли отличается заявленный расход топлива от реального на уровне значимости 0.01(можно использовать ссылку на сайт для расчета из презентации) Число v = n - m - 1 называется числом степеней свободы. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений, по крайней мере, в 3 раза превосходило число оцениваемых параметров. 1) t-статистика Tтабл (n-m-1;α/2) = (22;0.005) = 3.119 Статистическая значимость коэффициента регрессии b0 не подтверждается. Статистическая значимость коэффициента регрессии b1 не подтверждается. Статистическая значимость коэффициента регрессии b2 не подтверждается. Доверительный интервал для коэффициентов уравнения регрессии. Определим доверительные интервалы коэффициентов регрессии, которые с надежность 99% будут следующими: (bi - ti*Sbi; bi + ti*Sbi) b0: (4.9 - 3.119*0 ; 4.9 + 3.119*0) = (4.9;4.9) b1: (5.1 - 3.119*0.4 ; 5.1 + 3.119*0.4) = (3.852;6.348) b2: (0 - 3.119*0 ; 0 + 3.119*0) = (0;0) Почему А/В эксперимент нельзя остановить раньше срока, если вдруг мы посчитали p-value, например, на первых 7 днях и увидели значимое отличие? Эксперимент нельзя остановить раньше срока, чтобы избежать проблему «подглядывания». При дизайне, запуске и анализе A/B тестов можно допустить много ошибок, но одна из них особенно коварна. Эта ошибка – побочный эффект проверки результатов A/B теста c готовностью действовать на их основе до его окончания. Ее называют «Peeking problem» или «Проблема подглядывания». |