# 4 модуль. АВ тестирование ## Косяки в видео Урок 1, Лекция – Чёрный квадрат на полэкрана с 2:08:24 по 2:08:40 Урок 5, Семинар – На 28:26 оговорка вместо "delta равняется 1.28" сказано "delta равняется 0.28" ## Тайминги видео ### 0 Введение: основы статистики 0. Введение – 0:00 1. Точечное оценивание 1.1 Точечная оценка – 0:49 1.2 Несмещённая оценка – 2:26 1.3 Состоятельная оценка – 7:33 1.4 Критерий состоятельности – 10:40 1.5 Свойства оценок – 14:45 2. Оценка максимального правдоподобия – 15:55 2.1 Оценка максимального правдоподобия: пример, нормальное распределение – 20:21 2.2 Оценка максимального правдоподобия: пример, равномерное распределение – 23:23 2.3 Свойства оценки максимального правдоподобия – 28:13 2.4 Оценка максимального правдоподобия: проблемы, смесь нормальных распределений – 29:50 3. Экспоненциальное семейство распределений – 35:39 3.1 Теорема о единственности ОМП для экспоненциальных распределений – 36:48 4. Центральная предельная теорема и закон больших чисел 4.1 Предельные теоремы – 43:28 5. Доверительный интервал – 46:12 5.1 Доверительный интервал: пример – 49:00 5.2 Доверительный интервал: чуть более продвинутый пример – 51:56 5.3 Доверительный интервал: пуассоновское распределение – 55:22 6. Резюме – 59:31 7. Дополнительные материалы 7.1 Plug-in – 1:00:25 7.2 Эмпирическая функция распределения – 1:02:01 7.3 Интеграл Лебега-Стилтьеса – 1:05:21 7.4 Характирестические функции – 1:07:21 7.5 Применение Plug-in для характирестических функций – 1:09:14 ### 1 Основы статистики и статистические гипотезы #### Лекция 0. Введение – 0:00 0.1 Методы принятия решений – 1:09 0.2 Что такое АB тестирование? – 4:22 1. Тестирование гипотез: 1.1 Статистическая гипотеза – 6:03 1.2 Пример проверки статистической гипотезы – 10:12 1.3 Статистический критерий – 13:25 1.4 Уровень значимости и мощность теста – 24:52 1.5 Тест на равенство средних. Критическая область – 31:31 1.6 Этапы проверки статистических гипотез – 34:40 2. Важные статистические тесты: 2.1 Тест Стьюдента – 38:41 2.2 Тест Манна-Уитни – 46:05 2.3 Критерий Колмогорова – 54:23 2.4 Повторяем этапы проверки статистических гипотез – 58:02 2.5 Критерий отношения правдоподобия – 1:02:54 3 Бутстреп: 3.1 Доверительный интервал – 1:10:59 3.2 Бутстреп – 1:15:20 3.3 Пример оценки мат. ожидания с помощью бутстрепа – 1:38:45 3.4 Проверка гипотезы о равенстве средних двух выборок – 1:43:51 3.5 Нормальный интервал – 1:47:45 3.6 Интервал на основе перцентилей – 1:51:13 3.7 Центральный интервал – 1:58:03 3.8 Бутстреп. Итоги – 2:07:46 4. Как выбрать критерий: 4.1 Ошибки I и II рода – 2:08:43 4.2 Оценка ошибок I рода – 2:11:10 4.3 Оценка ошибок II рода – 2:17:12 4.4 p-value – 2:19:53 4.5 Распределение p-value – 2:25:58 5. Резюме – 2:32:19 #### Семинар 0. Введение – 0:00 1. Распределение Стьюдента. Критическая область – 0:54 2. Статистические тесты – 8:58 3. Доверительные интервалы с помощью бутстрепа – 26:04 ### 2 Метрики в А/В-тестировании #### Лекция 0. Введение – 0:00 1. Зачем нужны метрики 1.1 Проблема выбора – 0:41 1.2 Конкретная гипотеза – 2:45 2. Целевая метрика – 5:19 2.1 Иерархия метрик – 8:52 3. Свойства метрик – 11:09 3.1 Синтетические метрики – 20:07 4. Вспомогательные и контрольные метрики – 22:22 4.1 Случайные эффекты – 27:02 4.2 Эффект новизны – 28:53 5. Процедура принятия решений – 30:40 5.1 Мы провели эксперимент и что делать дальше – 33:20 6. Резюме – 34:12 #### Семинар 0. Введение – 0:00 1. Рекомендации в онлайн магазине – 0:21 2. Синтетические метрики – прогнозирование LTV – 14:40 ### 3 MDE, Sample Size #### Лекция от Валеры Бабушкина 0. Введение – 0:00 1. Стратификация – 0:49 1.1 Сравнение с бутстрапом – 2:52 1.2 Пример с изменёнными дисперсиями – 3:13 1.3 Ещё пример с изменёнными дисперсиями – 3:39 1.4 Резюме сравнений методов – 3:58 2. CUPED – 4:17 2.1 Описание метода CUPED – 4:43 2.2 CUPED для нескольких переменных – 10:08 #### Лекция 0. Введение – 0:00 0.1 Причины отсутствия эффекта – 1:10 1. Подготовка к эксперименту – 2:00 1.1 Что нужно посчитать до начала эксперимента – 3:15 1.2 Выбор размера выборки – 5:50 2. Тестирование гипотез – 9:27 2.1 Односторонний и двусторонний тест – 12:21 2.2 Ошибки при принятии решений – 14:04 3. MDE – 15:33 3.1 Математическое обоснование MDE – 16:31 3.2 Вывод MDE – ошибка первого рода – 23:05 3.3 Вывод MDE – ошибка второго рода – 30:20 3.4 Вывод MDE – итог – 37:37 3.5 Доказательство замены в итоговой формуле – 38:58 3.6 Вывод MDE – итоговая формула – 40:40 3.7 Как MDE зависит от параметров – 42:09 4. Sample size – 46:48 4.1 Variance Reduction – 48:54 5. Резюме – 51:09 #### Семинар 0. Введение – 0:00 1. Размер выборки – 0:15 2. Цена ошибки – 16:26 3. Различные сценарии – 21:18 4. MDE, пример расчёта – 23:24 5. Variance reduction – 28:12 ### 4 Стратификация #### Лекция 0. Введение – 0:00 1. Стратификация – 1:58 2. Точечные оценки популяционного среднего – 7:37 2.1 Результаты стратифицированного разбиения – 14:40 3. Стратификационное семплирование – 15:44 3.1 Свойства оценок популяционного среднего – 18:23 4. Понижение дисперсии 4.1 Условное мат. ожидание – 21:29 4.2 Полные мат. ожидание и дисперсия – 26:31 4.3 Межгрупповая и внутригрупповая дисперсии – 33:37 4.4 Понижение дисперсии при стратификации – 41:12 4.5 Преимущества стратифицированного сэмплирования – 45:14 5. Пост стратификация 5.1 Проблемы и недостатки случайного сэмплирования – 47:28 5.2 Стратификация после проведённого эксперимента – 50:30 5.3 Дисперсия при постстратификации – 50:30 6. Сравнение методов семплирования – 59:55 6.1 Оценка пилота – 1:02:48 7. Резюме – 1:05:23 #### Семинар 0. Введение – 0:00 1. Вероятность больших перекосов – 0:30 2. Дисперсия при стратификации – 7:40 3. Пример оценки АБ теста – 34:23 4. Обобщающая способность – 50:10 ### 5 CUPED #### Лекция 0. Введение – 0:00 1. Оценка эффекта. Как повысить чувствительность? – 1:04 2. CUPED – 12:04 2.1 Изменение целевой метрики – 14:47 2.2 Как вычитание может уменьшать дисперсию – 22:47 2.3 Чем великолепен CUPED – 28:48 2.4 Геометрическая интерпретация CUPED – 31:31 2.5 Коррелирующая с.в. позволяет снижать дисперсию – 33:01 2.5 Применение CUPED в AB экспериментах – 36:24 3. Независимость ковариаты – 40:38 3.1 Где брать независиме, но связанные данные – 43:43 3.2 CUPED и регрессия – 46:51 3.3 Многопараметрический CUPED – 52:20 3.4 Какой выигрыш даёт CUPED – 54:54 4. CUPED: проблемы и решения 4.1 Работа с пропущенными значениями – 56:15 4.2 Корреляция и каузальность – 56:15 4.3 Казусы при использовании независимых данных – 1:00:31 4.4 Когда CUPED не работает – 1:02:19 5. Обобщения идеи CUPED и их применение – 1:03:04 6. Резюме – 1:17:03 7. Связь CUPED с линейными моделями – 1:18:35 #### Семинар 0. Введение – 0:00 1. Продолжительность пользовательских сессий – 0:24 1.1 Как влияет θ на уменьшение дисперсии – 8:49 2. Продажа минералок – 9:47 3. CUPED + ML – 21:28 4. Резюме – 33:21 ### 6 Линеаризация #### Лекция 0. Введение – 0:00 1. Ratio-метрики – 1:23 2. User average – 15:11 3. Бутстреп – 22:50 4. Дельта метод – 27:47 5. Применение дельта-метода к ratio-метрикам – 49:10 6. Многопараметрический дельта-метод – 58:02 7. Линеаризация – 1:08:32 8. Если данных очень много. Метод бакетов – 1:25:42 #### Семинар 0. Введение – 0:00 1. AA-тест и распределение p-value – 3:40 2. Проблема зависимых случайных величин. Тест Стьюдента по сессиям – 5:14 3. Среднее по пользователям – 9:25 4. Бутстреп – 13:50 5. Дельта-метод – 20:26 6. Линеаризация – 24:45 7. Итого – 27:14 8. Delta method vs Linearization – 32:13 9. Метод бакетов. Как избавиться от зависимости в данных? – 37:24 10. Резюме – 48:00 ### 7 Множественное тестирование #### Лекция 0. Введение – 0:00 1. Множественная проверка гипотез – 3:43 2. Независимые гипотезы – 8:40 2.1 Поправка Бонферрони – 16:10 2.2 Метод Холма – 22:18 2.3 Метод Бенджамини-Хохберга – 25:51 2.4 Сравнение методов – 33:13 2.5 Большие выбросы – 34:42 3. Зависимые гипотезы – 43:52 4. Параллельный запуск экспериментов – 53:52 4.1 Одномерная и многомерная схемы запуска экспериментов – 55:25 4.2 Разбиение пользователей на эксперименты – 1:02:56 4.3 Конфигурация экспериментов – 1:14:10 5. Доля успешных экспериментов – 1:17:11 6. Резюме – 1:19:26 #### Семинар 0. Введение – 0:00 1. Множественное тестирование – 4:23 2. Сравнение методов для множественного тестирования – 12:14 2. Большие выбросы – 24:50 3. Зависимые эксперименты – 26:35 4. Распределение пилотов по пользователям – 30:12 5. Распределение пилотов по слотам – 32:39 ### 8 Peeking problem, последовательное тестирование #### Лекция 0. Введение – 0:00 1. Почему мы любим подглядывать? – 1:52 2. Peeking problem – проблема подглядывания – 10:35 3. Последовательное тестирование. Новые схемы принятия решений – 27:40 4. Критерий Вальда – 39:30 4.1 Сходимость – 42:33 4.2 Выбор границ – 43:47 4.3 Тождество Вальда – 54:06 4.4 Среднее количество испытаний – 56:00 5. Сложные гипотезы – 59:56 6. Резюме – 1:03:47 #### Семинар 0. Введение – 0:00 1. Ошибки I и II рода при последовательном анализе – 0:22 2. Продолжительность теста – 17:59 3. Поступление данных батчами – 27:54 ### 9 Auto-ML, Полный пайплайн #### Лекция 0. Введение – 0:00 1. Внедрение АВ тестирования в крупных компаниях – 1:18 2. Запуск и управление экспериментами – 11:59 3. Подготовка к запуску эксперимента – 23:28 3.1 Методы повышения чувствительности – 26:04 3.2 Продолжительность эксперимента – 35:50 3.3 Техническая реализация – 42:58 4. Мониторинги во время проведения эксперимента – 49:44 4.1 Canary deployment – 58:31 4.2 Парадокс Симсона – 1:00:49 4.3 Проблема ранней остановки – 1:04:51 5. Анализ результатов после завершения эксперимента – 1:05:41 6. Резюме – 1:15:57