<style> .reveal section img { background:none; border:none; box-shadow:none; } .reveal { font-size: 30px; } .reveal p { text-align: left; } .reveal ul { display: block; } .reveal ol { display: block; } </style> <h1>Hipótesis, inferencias y A-B Testing</h1> ## Taller Nous Usos de la Informàtica <center><img width="150" src="https://i.imgur.com/vvZMy0I.png"></center> --- <center><img width="350" src="https://i.imgur.com/oQ97Cjc.jpg"></center> --- ## ¿Por qué hacer inferencia estadística? + Los datos no hablan, es el analista que los hace hablar. Existen muchas explicaciones compatibles con los datos, que a menudo sólo se pueden resolver realizando experimentos. <center><img width="350" src="https://i.imgur.com/dyi3etu.png"></center> + Los datos no siempre son concluyentes sobre una cuestión y diferentes analistas pueden obtener diferentes conclusiones en función del método de análisis usado, de la ingeniería de características usada, etc. --- ## ¿Por qué hacer inferencia estadística? + La ciencia de datos debe seguir una metodología que minimice los errores y las sobreinterpretaciones a partir de los datos, aunque **los datos no pueden darnos un $100\%$ de seguridad sobre las conclusiones**. + Muchas tareas habituales en ciencia de datos se pueden formular en cuatro pasos: + Formular una hipótesis. + Recoger datos. + Validar e interpretar el resultado. + Volver al primer punto con una hipótesis refinada. + Las hipótesis se formulan siempre ANTES de realizar el experimento. + Los datos se seleccionan en función de la hipótesis. + La hipótesis se valida usando técnicas metodológicas y estadísticas. --- ## Ejemplos **Pregunta:** ¿Sacan los árbitros de fútbol más tarjetas a los jugadores de piel oscura que a los jugadores de piel clara? **Pregunta:** ¿Existe relación entre la cantidad de chocolate que se come en un país y el nivel de inteligencia de sus habitantes? --- <center><img width="550" src="https://i.imgur.com/pRLTNlQ.png"></center> --- <center><img width="550" src="https://i.imgur.com/pv5POdY.png"></center> --- <center><img width="550" src="https://i.imgur.com/i5u0rBB.png"></center> --- ## ¿Cómo se valida una hipótesis? Seguiremos el razonamiento de la estadística frecuentista, que es la más extendida. Hay otras formas de hacerlo, como la estadística Bayesiana, que no vamos a tratar en esta clase. + La estadística frecuentista parte del hecho de suponer que hay una *población* (infinita) de la que tomamos una *muestra* (finita). + La población está regida por una *función de distribución*, posiblemente caracterizada por unos parámetros, desconocida y la única forma (aproximada) de saber cuáles son estos parámetros es calcularlos por la muestra. + Lo que es seguro es que si amamos los parámetros a partir de la muestra, podemos aproximarnos a su valor, pero hay una **incertidumbre** inevitable. --- ## ¿Cómo se valida una hipótesis? Para entender este proceso, el concepto básico es el de **función de distribución muestral**. + Por ejemplo, supongamos que queremos calcular cuál es la duración media de un embarazo en EEUU. Al ser imposible obtener todos los datos para calcular la media, enviamos una serie de entrevistadores por todo el territorio que deben alcanzar la duración de 1000 embarazos. + Desde un punto de vista estadístico, todos los embarazos de EEUU constituyen la población, y el conjunto de datos de los entrevistadores constituye la muestra. + La pregunta que nos podemos hacer es: ¿qué relación existe entre la media de la muestra y la media de la población? + La respuesta nos la da la **función de distribución muestral** de la media. --- ## ¿Cómo se valida una hipótesis? La **función de distribución muestral** de la media se podría (imaginariamente) calcular así: + Enviamos 10.000 entrevistadores por todo el territorio que deben alcanzar la duración de 1000 embarazos cada uno. Con esto tenemos 10.000 muestras de tamaño 1000. + Por cada muestra calculamos la media. + Construimos la función de distribución de las medias calculadas. La función que hemos construido contiene la información necesaria para medir la incertidumbre asociada al cálculo de la media de la población a partir de una muestra de 1000 elementos. --- ## ¿Cómo se valida una hipótesis? <center><img width="450" src="https://i.imgur.com/oDpvxXu.png"></center> Esta función nos permite calcular la varianza de la estimación, la probabilidad de que la estimación sea mayor o igual que un determinado valor, etc. --- ## ¿Cómo se valida una hipótesis? Pero en la realidad, ¡la evaluación de la incertidumbre siguiendo el método de construcción que hemos visto de la **función de distribución muestral** del parámetro de interés de un problema no es factible! Dependiendo del problema, las opciones factibles son dos: calcular de forma teórica (método clásico) o de forma computacional (método alternativo) una *aproximación de la función de distribución muestral* del parámetro que estamos analizando. Entonces podremos calcular, a partir de la aproximación, la probabilidad de que el resultado sea producto de la casualidad* y emitir una proposición sobre el resultado del análisis. --- ## ¿Cómo se valida una hipótesis? Vamos a ver tres casos que ejemplifican este proceso: + Cómo generar una proposición sobre un caso en el que disponemos de un modelo teórico que nos dice cuál es la función de distribución de probabilidades del evento (monedas). Este caso se da poco en la realidad. ¡En este caso podemos calcular explícitamente la probabilidad de que el resultado sea una casualidad! + Cómo generar una proposición sobre la diferencia entre dos medias. Es un caso muy importante en ciencia de datos e incluso en diseño web, por lo que tenemos un resultado teórico interesante que nos permite calcular una aproximación de la función de distribución muestral del parámetro. + Cómo generar una proposición sobre un parámetro sobre el que no disponemos de un modelo teórico que nos permita usar la función de distribución muestral. --- ## Problema 1: Inferencia Estadística ### Noticia Real: > Al girarla de canto 250 veces, una moneda belga de un euro salió cara 140 veces (56%) y cruz 110 (44%). > "Me parece muy sospechoso", afirmó Barry Blight, profesor de estadística en la London School of Economics. "Si la moneda fuera imparcial, la posibilidad de obtener un resultado tan extremo sería inferior al $7\%$". > > [name="The Guardian", 4 de gener de 2002.] [color=red] --- ## El método clásico: planteamiento + Asumimos una posición *escéptica* (hipótesis) respecto al resultado. + En este caso, al ser una moneda de curso legal, la posición escéptica es asumir que la probabilidad de cara o cruz es la misma. Esta posición se llama la *hipótesis nula*. La hipótesis contraria se llama *hipótesis alternativa*. + Hacemos un experimento (recogemos datos) arrojándola 250 veces y recogemos los resultados. + Según el planteamiento clásico de la estadística, la validación consiste en **evaluar la probabilidad del resultado obtenido (o más intenso) bajo la hipótesis nula** (o lo que es lo mismo, cuál es la probabilidad de que el resultado sea fruto de la casualidad). + Si esta probabilidad es alta, la hipótesis alternativa pierde credibilidad. + De lo contrario, aumenta credibilidad. --- ## El método clásico: validación de la hipótesis En el caso de la moneda, la probabilidad de la hipótesis nula puede calcularse explícitamente: + $P(1_+) = \frac{1}{2}$ + $P(2_+) = (\frac{1}{2})^2$ + $P(2_+, 1_\times) = P(++\times) + P(+\times+) + P(\times++) = \frac{3}{8}$ + Etc. --- ## El método clásico: validación de la hipótesis La función de distribución de probabilidades que modela el caso de la moneda perfecta es la Binomial con parámetro $\frac{1}{2}$: $$P(N_+, N_\times) = \binom{N}{N_+} (\frac{1}{2})^{N_+} (1 - \frac{1}{2})^{ N_\times}$$ donde $\binom{N}{N_+}$ es el número de combinaciones de $N$ en $N_+$, ($N$ elementos tomados de $N_+$ en $N_+$) y $(\frac{ 1}{2})^{N_+}$ es la probabilidad de $N_+$ caras y $(1-\frac{1}{2})^{N_\times}$ es la probabilidad de ${N_\ times}$ cruces. --- ## El método clásico: validación de la hipótesis <center><img width="550" src="https://i.imgur.com/NKwQw9v.png"></center> La línea azul corresponde a $N_+=140$. Si sumamos todo lo que queda a la derecha tenemos $P(N_+ \geq 140) = 0.033$ bajo la hipótesis nula. --- ## El método clásico: validación de la hipótesis Llegados a este punto, la estadística clásica hace este razonamiento: + La probabilidad de tener 140 o más caras bajo la hipótesis nula (la moneda está bien hecha) es del $3,33 \%$. Por tanto, la probabilidad de tener un resultado tan extraño como éste (o más) era aproximadamente del $7\%$. + Esta probabilidad es pequeña... pero... ¿Qué hacemos, rechazamos la hipótesis nula y aceptamos que la hipótesis alternativa o no? La estadística clásica asume que la probabilidad de una hipótesis es pequeña si es menor que $5\%.$ Este valor es arbitrario pero se usa mucho en la práctica. :::warning **IMPORTANTE**: ¡Esto significa que aceptamos un margen de error del $5\%$ cuando aceptamos la hipótesis alternativa! ::: --- ## Un método alternativo: Simulación Si sabemos *simular/generar* los eventos, también podemos construir directamente la función de distribución muestral del parámetro de interés! + En el caso de las monedas es factible, en la mayoría de los casos interesantes, ¡no! Sólo hace falta programarlo, calcular $P(N_+ \geq 140)$ y obtendremos el mismo resultado: <center><img width="650" src="https://i.imgur.com/JMYAPwj.png"></center> **Observación:** ¿Qué piensa que pasa si hacemos más simulaciones? --- ## Problema 2: A/B Testing o ¿cómo elegimos la mejor opción? <center><img width="550" src="https://i.imgur.com/G8Y30SL.png"></center> <sup>Traffic randomly asignado a cada página variante basada upon a predetermined weighting. Por ejemplo, es posible realizar tests con 2 page variantes, y might split the traffic $50-50$ or $60-40$. Visitores son típicamente cookied son los que se pueden encontrar la versión de la página (en la integración de la integridad de los test). Entonces, usted puede conseguir el tiempo que cada usuario está teniendo en todas las páginas (asumiendo que el tiempo es más). En las últimas, yo analyze el log para decidir.</sup> --- ## Recogida de muestras. Supongamos que lo hacemos por dos páginas, $A$ y $B$, y recogemos el tiempo que algunos usuarios pasan a cada una de ellas: <center><img width="650" src="https://i.imgur.com/aD8PXsd.png"></center> Según estos datos, el tiempo medio que un usuario pasa a $A$ es $73.5$, ya $B$ es $66.9$. ¿Hasta qué punto podemos estar seguros de que $A$ es mejor que $B$? Dicho de otro modo: ¿hasta qué punto la diferencia observada (que es $6.6$) indica que $A$ es mejor que $B$? --- ## El método clásico: diferencia entre medias. + Ahora tenemos un problema de **diferencia entre medias**. + Asumimos una posición *escéptica* respecto al resultado. En este caso, la posición escéptica es que el cambio de diseño carece de efecto (positivo o negativo) sobre los usuarios. + El experimento es la recogida de muestras que hemos visto (8 valores por $A$ y 12 por $B$). + Según el planteamiento clásico de la estadística, la validación consiste en **evaluar la probabilidad del resultado obtenido bajo la hipótesis nula**. Si esta probabilidad es alta ($>0.05$), descartamos la hipótesis alternativa. De lo contrario, no puede descartarse. + Si queremos seguir la metodología, lo que deberíamos hacer es ver **cuál es la función de distribución muestral de la diferencia entre dos medias** y calcular la probabilidad de que una diferencia de este estilo sea mayor (o menor ) que 6.6. --- ## El método clásico: diferencia entre medias. La distribución de la diferencia entre las medias se puede considerar como la distribución que se produciría si repetimos los siguientes tres pasos una y otra vez: + Muestrea $n_1$ valores de la población 1 (8 usuarios de A) $n_2$ valores de la población 2 (12 usuarios de B) . + Calcula las medias de las dos muestras ($\hat{\mu_1}$ y $\hat{\mu_2}$). + Calcula la diferencia entre las medias ($\hat{\mu_1} - \hat{\mu_2}$). La distribución de las diferencias entre medias se puede construir a partir de repeticiones de este experimento, pero para obtener una buena aproximación habría que realizar MUCHOS experimentos, lo que no es factible. --- ## El método clásico: diferencia entre medias. Pero **se puede demostrar** que la distribución muestral de la diferencia entre las medias de dos distribuciones arbitrarias sigue una distribución normal $N(\mu, \sigma^2)$, donde: + $\mu = \mu_1 - \mu_2$, donde $\mu_1$ es la media de la primera distribución y $\mu_2$ la de la segunda, + $\sigma^2 = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}$, donde $\sigma_1^2$ es la desviación de la primera distribución, $\sigma_2 ^2$ la de la segunda y + $n_1$ y $n_2$ son el número de elementos de la muestra de cada distribución respectivamente. --- ## El método clásico: diferencia entre medias. En nuestro caso y como estamos bajo la hipótesis nula: + $\mu_1 = \mu_2$ y por tanto $\mu_ 0$. + $\sigma_1^2 = \sigma_2^2$, y por tanto $\sigma^2$, se estima como $\frac{\hat{\sigma}^2}{n_1} + \frac{\hat{ \sigma}^2}{n_2}$, donde $\hat{\sigma}^2$ es la desviación de los datos de las dos muestras agregadas. En nuestro problema este valor es $6.28$. --- ## El método clásico: diferencia entre medias. <center><img width="350" src="https://i.imgur.com/ciFhoiU.png"></center> Puesto que para nosotros ambas poblaciones no tienen un significado especial, debemos ver qué probabilidad hay de que el resultado de la diferencia sea $+6.6$ o $-6.6$ (pues esto depende de qué muestra consideramos primero). En el gráfico podemos observar que este valor está en torno a un $30 \%$, que es un valor muy alto. Por eso decimos que no podemos rechazar la hipótesis nula. --- ## El método clásico: diferencia entre medias. :::info :bulbo: Si no podemos rechazar la hipótesis nula significa que no hay evidencia de que una página sea mejor que la otra. ::: **Preguntas importantes**: + ¿Podría cambiar esta conclusión si encontráramos una diferencia de 6.6 con una muestra con $n_1$ y $n_2$ mucho mayores? + Si realmente las páginas son equivalentes, ¿que observaríamos en el valor de la diferencia si tenemos una muestra con $n_1$ y $n_2$ mucho mayores? --- ## El método alternativo: *Shuffling* Existe un modelo alternativo más directo para calcular el efecto de la casualidad, basado en la siguiente consideración: :::info :bulbo: Si las etiquetas realmente no importan (hipótesis nula), entonces redistribuirlos entre los datos no debe tener ningún efecto en la distribución muestral de la diferencia entre medias. ::: Entonces, podemos aplicar el siguiente procedimiento una serie de veces: + Mezclar (shuffling*) las etiquetas respecto a las muestras. + Recalcular las medias y su diferencia. Si esto lo hacemos muchas veces podemos construir la distribución muestral de la diferencia entre medias, contar cuántas veces sale una diferencia mayor que la observada y asignar esta probabilidad al valor observado. --- ## El método alternativo: *Shuffling* <center><img width="750" src="https://i.imgur.com/tWpIhza.png"></center> --- ## El método alternativo: *Shuffling* <center><img width="550" src="https://i.imgur.com/PghmSSn.png"></center> --- ## El método alternativo: *Shuffling* <center><img width="650" src="https://i.imgur.com/fsjGA3P.png"></center> --- ## El método clásico: la media. Volvemos al problema de la estimación de la media. Supongamos que quiero estimar el número medio de clientes que entran en una tienda durante los sábados y recojo estos datos durante 20 sábados: <center><img width="450" src="https://i.imgur.com/X8cJL7N.png"></center> ¿Cuál es la media? ¿Cuál es la incertidumbre sobre su estimación? --- ## El método clásico: otros parámetros. La estadística frecuentista responde a las dos preguntas con dos fórmulas, una sobre cuál es la mejor estimación posible (según una serie de asunciones no triviales) de la media $\hat{\mu}$ a partir de una muestra de $ N$ elementos $\{x_i\}$ y otra sobre el error estándar $\sigma_{\hat{\mu}}$ de esta estimación: $$ \hat{\mu} = \frac{1}{N} \sum_1^N x_i = 28.9$$ $$ \sigma_{\hat{\mu}} = \frac{1}{\sqrt{N}} \sqrt{\frac{1}{N-1} \sum_1^N (x_i - \hat{\mu })^2} = 3.0$$ --- ## El método clásico: otros parámetros. Estos resultados son interesantes, pero ¿qué ocurre si en vez de la media quiero otros parámetros (por ejemplo, los cuantiles) definidos sobre la función de distribución de probabilidades del fenómeno estudiado? --- ## Otro método alternativo: *Bootstrap* Podemos intentar la vía de simular la muestra, ¡pero no tenemos un modelo generador de la entrada de clientes en mi tienda! El método de *bootstrap* nos permite crear una aproximación robusta de la distribución muestral de estos parámetros (incluida la media) a partir de aplicar un muestreo aleatorio con reemplazo**: + Dado un conjunto de $N$ elementos, el muestreo aleatorio con reemplazo consiste en: + Asignar un número entero a cada elemento, + Seleccionar $N$ elementos del conjunto (algunos de ellos posiblemente repetidos) mediante la generación de $N$ números aleatorios del intervalo de enteros $(1, \dots, N)$. --- ## Otro método alternativo: *Bootstrap* <center><img width="750" src="https://i.imgur.com/Kcmhf1e.png"></center> --- ## Otro método alternativo: *Bootstrap* <center><img width="450" src="https://i.imgur.com/HRhsgqy.png"></center> Entran 29 $\pm$ 3 personas cada sábado en la tienda! --- ## Otras aplicaciones del *bootstraping*. El método de boostraping puede aplicarse para medir la incertidumbre de estadísticos más complejos, como por ejemplo a la regresión lineal. --- ## Otras aplicaciones del *bootstraping*. <center><img width="750" src="https://i.imgur.com/Fxy05T5.png"></center> --- ## Otras aplicaciones del *bootstraping*. <center><img width="750" src="https://i.imgur.com/d6tfWn2.png"></center> --- ## Otras aplicaciones del *bootstraping*. <center><img width="550" src="https://i.imgur.com/f3eINdo.png"></center> --- ## Otras aplicaciones del *bootstraping*. <center><img width="550" src="https://i.imgur.com/HtqaDpb.png"></center> --- ## Reflexiones finales. + La estadística nos ayuda a cuantificar la incertidumbre de un resultado, pero el **significado** de un resultado no depende de los datos ni de la validación de los resultados, sino del analista. + Pensamos en el caso que detecto, con una probabilidad $<0.001$ bajo la hipótesis nula, de que la diferencia entre la duración del embarazo del primer hijo y del último es de 1 segundo. ¿Es un resultado significativo? + La casualidad existe: incluso cuando la estadística calcula una probabilidad pequeña por el efecto observado bajo la hipótesis nula, ¡el resultado puede ser no real! ¡Y al revés! + Siempre hay que ser escéptico y no hacer proposiciones demasiado atrevidas sobre los resultados. La única forma de aumentar la certeza sobre algún efecto es repetir el experimento en muchas ocasiones.
{"title":"Hipótesis, inferencias y A-B Testing","description":"Les dades no parlen, és l’analista que les fa parlar. Hi ha moltes explicacions compatibles amb les dades, que sovint només es poden resoldre fent experiments.","slideOptions":"{\"theme\":\"white\",\"transition\":\"fade\"}","contributors":"[{\"id\":\"f9d66d82-46e3-417e-9b01-6c6eb9dedb12\",\"add\":17215,\"del\":16818}]"}
    101 views