Глоссарий
А/B тестирование
Метод принятия решений для внедрения изменений продукта, где разным группам пользователей показывают старый и новые варианты.
А/A тестирование
Метод проверки корректности выбранного подхода для A/B тестирования, где разным группам пользователей показывают одинаковые варианты. В случае нахождения статистических различий делается вывод о проблемах в дизайне или выбранной методологии эксперимента.
Частотный статистический подход
Подход, при котором вычисляется точечная оценка неизвестного параметра, а также статистика теста, имеющая случайное распределение. Выводы о победителе делают на основании p-value или доверительных интервалахПодробнее...
Статистический тест
Метод проверки гипотез в частотной статистике, с определенной долей вероятностью свидетельствующий об отвержении или не отвержении нулевой гипотезы. Могут быть различными в зависимости от параметров эксперимента. Подробнее...
Статистическая значимость
Ситуация, когда выдвинутая гипотеза об отсутствии статистических различий отвергается при помощи собранных данных.
Нулевая гипотеза
Выдвигаемая гипотеза перед экспериментом, которую мы можем опровергнуть либо не опровергнуть.
Альтернативная гипотеза
Гипотеза, выдвигаемая в качестве альтернативы нулевой гипотезе.
Ошибка 1 рода
Вероятность обнаружить статистически значимый эффект в случае, когда его на самом деле нет (например А/А тест показывает статистически значимые различия)
Ошибка 2 рода
Вероятность не обнаружить статистически значимый эффект в случае, когда он на самом деле есть (например А/B тест показывает, что статистически значимых различий нет, когда они на самом деле есть).
Мощность теста
Способность теста обнаруживать эффект, когда он на самом деле есть (от 100% нужно отнять величину FNR).
Размер выборки
Необходимое количество пользователей, которое нужно собрать для выявления статистически значимого эффекта при фиксированных вероятностях ошибиться.
p-value
Результат тестирования гипотез при использовании частотного статистического подхода. Данное значение сравнивают с уровнем значимости (FPR) и делают вывод о статистически значимых различиях между вариантами теста: если p-value меньше зафиксированной ошибки 1 рода, то нулевая гипотеза отвергается.
Доверительный интервал
Интервал, который с определенным уровнем доверия накрывает истинное значение параметра. Является одним из результатов теста при частотном подходе. Является взаимозаменяемым показателем для p-value.
Отметим, что нельзя его трактовать как интервал, содержащий в себе определенную долю всех возможных значений. Подробнее...
Множественное тестирование
Ситуация, когда нужно протестировать более одной гипотезы за один эксперимент.
Ошибка при множественном тестировании
Ошибка, возникающая в ходе множественного тестирования. Подробнее...
Поправки множественного тестирования
Способы, позволяющие учесть множественность выбора в ходе проведения эксперимента. 
Ошибка подглядывания
Ошибка, возникающая в ситуации раннего завершения классического AB-теста (обычно при достижении статистически значимого результата). Приводит к увеличению доли ложных срабатываний FPR и FNR. 
Байесовский статистический подход
Подход, при котором вычисляется не точечная оценка статистического параметра, а его распределение, исходя из наших предположений о виде распределения (априорные ожидания), а также на основании полученной информации (собранных данных). Подробнее... 
Априорное распределение
Вид распределения значений для исследуемого параметра, которое мы предполагаем перед проведением байесовского теста. Подробнее...
Апостериорное распределение
Распределение всевозможных значений метрики, пересчитанное с учетом априорных ожиданий и полученных данных в течение эксперимента. Подробнее...
Вероятность превосходства
Вероятность того, что выбранный вариант лучше остальных вариантов теста. Для конверсии можно рассчитать по точной формуле. Подробнее...
Ожидаемые потери
Сколько мы ожидаем в среднем потерять при выборе варианта теста.
Достоверный интервал
Интервал, который содержит в себе определенную долю всевозможных значений для исследуемого параметра. Является одним из результатов теста при байесовском подходе. Можно использовать в качестве критерия завершения байесовского эксперимента. Подробнее... 
Задача многоруких бандитов в A/B тестировании
Задача, где нужно оптимально распределять пользователей по вариантам теста в течение эксперимента с целью максимизации целевого показателя. В отличие от классических и байесовских тестов, где разбивка по группам происходит в равных пропорциях, в случае многоруких бандитов доли пользователей по вариантам теста в течение эксперимента будут различаться.
Алгоритм Томпсона
Алгоритм, в основе которого лежит байесовский статистический подход. Позволяет максимизировать доход в задаче многоруких бандитов при A/B тестировании - больше трафика отдается лидирующему варианту.