<style> .reveal section img { background:none; border:none; box-shadow:none; } .reveal { font-size: 30px; } .reveal p { text-align: left; } .reveal ul { display: block; } .reveal ol { display: block; } </style> <h1>Hipòtesis, inferències i A-B Testing</h1> ## Taller Nous Usos de la Informàtica <center><img width="150" src="https://i.imgur.com/vvZMy0I.png"></center> --- <center><img width="450" src="https://i.imgur.com/oQ97Cjc.jpg"></center> --- <center><img width="450" src="https://hackmd.io/_uploads/ryZiRx2gyx.jpg"></center> --- ## Per què cal fer inferència estadística? + Les dades no parlen, és l'analista que les fa parlar. Hi ha moltes explicacions compatibles amb les dades, que sovint només es poden resoldre fent experiments. <center><img width="350" src="https://i.imgur.com/dyi3etu.png"></center> + Les dades no sempre són concluents sobre una qüestió i diferents analistes poden obtenir diferents conclusions en funció del mètode d'anàlisi usat, de l'enginyeria de característiques usada, etc. --- ## Per què cal fer inferència estadística? + La ciència de dades ha de seguir una metodologia que minimitzi els errors i les sobre-interpretacions a partir de les dades, tot i que **les dades no ens poden donar un $100\%$ de seguretat sobre les conclusions**. + Moltes tasques habituals en ciència de dades és poden formular en quatre passes: + Formular una hipòtesi. + Recollir dades. + Validar i interpretar el resultat. + Tornar al primer punt amb una hipòtesi refinada. + Les hipòtesis es formulen sempre ABANS de realitzar l'experiment. + Les dades es seleccionen en funció de l'hipòtesi. + L'hipòtesi es valida usant tècniques metodològiques i estadístiques. --- ## Exemples **Pregunta:** Treuen els àrbitres de futbol més tarjetes als jugadors de pell fosca que als jugadors de pell clara? **Pregunta:** Hi ha relació entre la quantitat de xocolata que es menja en un pais i el nivell d'intel·ligència dels seus habitants? --- <center><img width="550" src="https://i.imgur.com/pRLTNlQ.png"></center> --- <center><img width="550" src="https://i.imgur.com/pv5POdY.png"></center> --- <center><img width="550" src="https://i.imgur.com/i5u0rBB.png"></center> --- ## Com es valida una hipòtesi? Seguirem el raonament de l'**estadística freqüentista**, que és la més extesa. Hi ha altres formes de fer-ho, com l'estadística Bayesiana, que no tractarem en aquesta classe. + L'estadística freqüentista parteix del fet de suposar que hi ha una *població* (infinita) de la que prenem una *mostra* (finita). + La població esta regida per una *funció de distribució*, possiblement caracteritzada per uns paràmetres, desconeguda i l'única forma (aproximada) de saber quins són aquests paràmetres és calcular-los per la mostra. + El que és segur és que si estimem els paràmetres a partir de la mostra, ens podem aproximar al seu valor, però hi ha una **incertesa** inevitable. --- ## Com es valida una hipòtesi? Per entendre aquest procés, el concepte bàsic és el de **funció de distribució mostral**. + Per exemple, suposem que volem calcular quina és la durada mitjana d'un embaràs als EEUU. Com que és impossible obtenir totes les dades per calcular la mitjana, enviem una sèrie d'entrevistadors per tot el territori que han d'aconseguir la durada de 1000 embaraços. + Des d'un punt de vista estadístic, tots els embaraços dels EEUU constitueixen la població, i el conjunt de dades dels entrevistadors constitueix la mostra. + La pregunta que ens podem fer és: quina relació hi ha entre la mitjana de la mostra i la mitjana de la població? + La resposta ens la dóna la **funció de distribució mostral** de la mitjana. --- ## Com es valida una hipòtesi? La **funció de distribució mostral** de la mitjana es podria (imaginàriament) calcular així: + Enviem 10.000 d'entrevistadors per tot el territori que han d'aconseguir la durada de 1000 embaraços cada un. Amb això tenim 10.000 mostres de mida 1000. + Per cada mostra calculem la mitjana. + Construim la funció de distribució de les mitjanes calculades. La funció que hem construït conté la informació necessària per mesurar l'incertesa associada al càlcul de la mitjana de la població a partir d'una mostra de 1000 elements. --- ## Com es valida una hipòtesi? <center><img width="450" src="https://i.imgur.com/oDpvxXu.png"></center> Aquesta funció ens permet calcular la variança de l'estimació, la probabilitat de que l'estimació sigui més gran o igual que un determinat valor, etc. --- ## Com es valida una hipòtesi? Però a la realitat, l'avaluació de la incertesa seguint el mètode de construcció que hem vist de la **funció de distribució mostral** del paràmetre d'interès d'un problema no és factible! Depenent del problema, les opcions factibles són dues: calcular de forma teòrica (mètode clàssic) o de forma computacional (mètode alternatiu) una *aproximació de la funció de distribució mostral* del paràmetre que estem analitzant. Llavors podrem calcular, a partir de l'aproximació, la probabilitat de que el resultat sigui producte de la *casualitat* i emetre una *proposició* sobre el resultat de l'anàlisi. --- ## Com es valida una hipòtesi? Anem a veure tres casos que exemplifiquen aquest procés: + Com generar una proposició sobre un cas en el que disposem d'un model teòric que ens diu quina és la funció de distribució de probabilitats de l'esdeveniment (monedes). Aquest cas es dona poc a la realitat. En aquest cas podem calcular explícitament la probabilitat de que el resultat sigui una casualitat! + Com generar una proposició sobre la diferència entre dues mitjanes. És un cas molt important en ciència de dades i fins i tot en disseny web, pel que tenim un resultat teòric interessant que ens permet calcular una aproximació de la funció de distribució mostral del paràmetre. + Com generar una proposició sobre un paràmetre sobre el qual no disposem d'un model teòric que ens permeti usar la funció de distribució mostral. --- ## Problema 1: Inferència Estadística ### Noticia Real: > When spun on edge 250 times, a Belgian one-euro coin came up heads 140 times (56%) and tails 110 (44%). > "It looks very suspicious to me", said Barry Blight, a statistics lecturer at the London School of Economics. "If the coin were unbiased the chance of getting a result as extreme as that would be less than $7\%$". > > [name="The Guardian", 4 de gener de 2002.] [color=red] --- ## El mètode clàssic: plantejament + Assumim una posició *escèptica* (hipòtesi) respecte al resultat. + En aquest cas, com que és una moneda de curs legal, la posició escèptica és assumir que la probabilitat de cara o creu és la mateixa. Aquesta posició s'anomena la *hipòtesi nula*. La hipòtesis contraria s'anomena *hipòtesis alternativa*. + Fem un experiment (recollim dades) llençant-la 250 vegades i recollim els resultats. + Segons el plantejament clàssic de l'estadística, la validació consisteix en **evaluar la probabilitat del resultat obtingut (o més intens) sota la hipòtesis nula** (o el que és el mateix, quina és la probabilitat que el resultat sigui fruit de la casualitat). + Si aquesta probabilitat és alta, la hipòtesi alternativa perd credibilitat. + En cas contrari, augmenta credibilitat. --- ## El mètode clàssic: validació de la hipòtesi En el cas de la moneda, la probabilitat de la hipòtesis nula es pot calcular explícitament: + $P(1_+) = \frac{1}{2}$ + $P(2_+) = (\frac{1}{2})^2$ + $P(2_+, 1_\times) = P(++\times) + P(+\times+) + P(\times++) = \frac{3}{8}$ + Etc. --- ## El mètode clàssic: validació de la hipòtesi La funció de distribució de probabilitats que modela el cas de la moneda perfecte és la Binomial amb paràmetre $\frac{1}{2}$: $$P(N_+, N_\times) = \binom{N}{N_+} (\frac{1}{2})^{N_+} (1 - \frac{1}{2})^{N_\times}$$ on $\binom{N}{N_+}$ és el nombre de combinacions de $N$ en $N_+$, ($N$ elements presos de $N_+$ en $N_+$) i $(\frac{1}{2})^{N_+}$ és la probabiliat de $N_+$ cares i $(1-\frac{1}{2})^{N_\times}$ és la probabilitat de ${N_\times}$ creus. --- ## El mètode clàssic: validació de la hipòtesi <center><img width="550" src="https://i.imgur.com/NKwQw9v.png"></center> La línia blava correspon a $N_+=140$. Si sumem tot el que queda a la dreta tenim $P(N_+ \geq 140) = 0.033$ sota la hipòtesis nula. --- ## El mètode clàssic: validació de la hipòtesi Arribats a aquest punt l'estadística clàssica fa aquest raonament: + La probabilitat de tenir 140 cares o més sota la hipòtesis nula (la moneda està ben feta) és del $3,33 \%$. Per tant, la probabilitat de tenir un resultat tant estrany com aquest (o més) era aproximadament del $7\%$. + Aquesta probabilitat és petita... però... Que fem, rebutgem l'hipòtesis nula i acceptem que la hipòtesi alternativa o no? L'estadística clàssica assumeix que la probabilitat d'una hipòtesis és petita si és menor que $5\%.$ Aquest valor és arbitrari però s'usa molt a la pràctica. :::warning **IMPORTANT**: Això vol dir que acceptem un marge d'error del $5\%$ quan acceptem la hipòtesis alternativa! ::: --- ## Un mètode alternatiu: Simulació Si sabem *simular/generar* els esdeveniments, també podem construïr directament la funció de distribució mostral del paràmetre d'interès! + En el cas de les monedes és factible, en la majoria dels cassos interessants, no! Només cal programar-ho, calcular $P(N_+ \geq 140)$ i obtindrem el mateix resultat: <center><img width="650" src="https://i.imgur.com/JMYAPwj.png"></center> **Observació:** Què penseu que passa si fem més simulacions? --- ## Problema 2: A/B Testing o com triem la millor opció? <center><img width="550" src="https://i.imgur.com/G8Y30SL.png"></center> <sup>Traffic is randomly assigned to each page variant based upon a predetermined weighting. For example, if you are running a test with 2 page variants, you might split the traffic $50-50$ or $60-40$. Visitors are typically cookied so that they will always see the same version of the page (to maintain the integrity of the test). Then, you can log the time each user spent at each page (assuming that more time is better). At last, you analyze the log to make a decision.</sup> --- ## Recollida de mostres. Suposem que ho fem per dues pàgines, la $A$ i la $B$, i recollim el temps que alguns usuaris passen a cada una d'elles: <center><img width="650" src="https://i.imgur.com/aD8PXsd.png"></center> Segons aquestes dades, el temps mitjà que un usuari passa a $A$ és $73.5$, i a $B$ és $66.9$. Fins a quin punt podem estar segurs que $A$ és millor que $B$? Dit d'una altra manera: fins a quin punt la diferència observada (que és $6.6$) indica que $A$ és millor que $B$? --- ## El mètode clàssic: diferència entre mitjanes. + Ara tenim un problema de **diferència entre mitjanes**. + Assumim una posició *escèptica* respecte al resultat. En aquest cas, la posició escèptica és que el canvi de disseny no té efecte (positiu o negatiu) sobre els usuaris. + L'experiment és la recollida de mostres que hem vist (8 valors per $A$ i 12 per $B$). + Segons el plantejament clàssic de l'estadística, la validació consisteix en **evaluar la probabilitat del resultat obtingut sota la hipòtesis nula**. Si aquesta probabilitat és alta ($>0.05$), descartem la hipòtesi alternativa. En cas contrari, no es pot descartar. + Si volem seguir la metodologia, el que hauriem de fer és veure **quina és la funció de distribució mostral de la diferència entre dues mitjanes** i calcular la probabilitat de que una diferència d'aquest estil sigui més gran (o més petita) que 6.6. --- ## El mètode clàssic: diferència entre mitjanes. La distribució de la diferència entre les mitjanes es pot considerar com la distribució que es produiria si repetim els següents tres passos una i altra vegada : + Mostreja $n_1$ valors de la població (8 usuaris) i mostreja $n_2$ valors de la població (12 usuaris) . + Calcula les mitjanes de les dues mostres ($\hat{\mu_1}$ i $\hat{\mu_2}$). + Calcula la diferència entre les mitjanes ($\hat{\mu_1} - \hat{\mu_2}$). La distribució de les diferències entre mitjanes es pot construir a partir de repeticions d'aquest experiment, però per obtenir una bona aproximació caldria fer MOLTS experiments, cosa que no és factible. --- ## El mètode clàssic: diferència entre mitjanes. Però **es pot demostrar** que la distribució mostral de la diferència entre les mitjanes de dues distribucions arbitràries segueix una distribució normal $N(\mu, \sigma^2)$, on: + $\mu = \mu_1 - \mu_2$, on $\mu_1$ és la mitjana de la primera distribució i $\mu_2$ la de la segona, + $\sigma^2 = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}$, on $\sigma_1^2$ és la desviació de la primera distribució, $\sigma_2^2$ la de la segona i + $n_1$ i $n_2$ són el nombre d'elements de la mostra de cada distribució respectivament. --- ## El mètode clàssic: diferència entre mitjanes. En el nostre cas i com que estem sota la hipòtesis nula: + $\mu_1 = \mu_2$ i per tant $\mu = 0$. + $\sigma_1^2 = \sigma_2^2$, i per tant $\sigma^2$, s'estima com $\frac{\hat{\sigma}^2}{n_1} + \frac{\hat{\sigma}^2}{n_2}$, on $\hat{\sigma}^2$ és la desviació de les dades de les dues mostres agregades. En el nostre problema aquest valor és $6.28$. --- ## El mètode clàssic: diferència entre mitjanes. <center><img width="350" src="https://i.imgur.com/ciFhoiU.png"></center> Com que per nosaltres les dues poblacions no tenen un significat especial, hem de veure quina probabilitat hi ha de que el resultat de la diferència sigui $+6.6$ o $-6.6$ (doncs això depèn de quina mostra considerem primer). Al gràfic podem observar que aquest valor està al voltant d'un $30 \%$, que és un valor molt alt. Per això diem que no podem rebutjar la hipòtesi nula. --- ## El mètode clàssic: diferència entre mitjanes. :::info :bulb: Si no podem rebutjar la hipòtesi nula vol dir que no hi ha evidència que una pàgina sigui millor que l'altra. ::: **Preguntes importants**: + Podria canviar aquesta conclusió si trobéssim una diferència de 6.6 amb una mostra amb $n_1$ i $n_2$ molt més grans? + Si realment les pàgines són equivalents, que observariem en el valor de la diferència si tenim una mostra amb $n_1$ i $n_2$ molt més grans? --- ## El mètode alternatiu: *Shuffling* Hi ha un model alternatiu més directe per calcular l'efecte de la casualitat, basat en la següent consideració: :::info :bulb: Si les etiquetes realment no importen (hipòtesi nula), llavors redistribuir-les entre les dades no ha de tenir cap efecte en la distribució mostral de la diferència entre mitjanes. ::: Llavors, podem aplicar el següent procediment una sèrie de vegades: + Barrejar (*shuffling*) les etiquetes respecte a les mostres. + Recalcular les mitjanes i la seva diferència. Si això ho fem moltes vegades podem construir la distribució mostral de la diferència entre mitjanes, contar quantes vegades surt una diferència més gran que la observada i assignar aquesta probabilitat al valor observat. --- ## El mètode alternatiu: *Shuffling* <center><img width="750" src="https://i.imgur.com/tWpIhza.png"></center> --- ## El mètode alternatiu: *Shuffling* <center><img width="550" src="https://i.imgur.com/PghmSSn.png"></center> --- ## El mètode alternatiu: *Shuffling* <center><img width="650" src="https://i.imgur.com/fsjGA3P.png"></center> --- ## El mètode clàssic: la mitjana. Tornem al problema de l'estimació de la mitjana. Suposem que vull estimar el nombre mitjà de clients que entren a una botiga durant els dissabtes i recullo aquestes dades durant 20 dissabtes: <center><img width="450" src="https://i.imgur.com/X8cJL7N.png"></center> Quina és la mitjana? Quina és l'incertesa sobre la seva estimació? --- ## El mètode clàssic: altres paràmetres. L'estadística freqüentista respon a les dues preguntes amb dues fòrmules, una sobre quina és la millor estimació possible (segons una sèrie d'assumpcions no trivials) de la mitjana $\hat{\mu}$ a partir d'una mostra de $N$ elements $\{x_i\}$ i una altra sobre l'error estàndard $\sigma_{\hat{\mu}}$ d'aquesta estimació: $$ \hat{\mu} = \frac{1}{N} \sum_1^N x_i = 28.9$$ $$ \sigma_{\hat{\mu}} = \frac{1}{\sqrt{N}} \sqrt{\frac{1}{N-1} \sum_1^N (x_i - \hat{\mu})^2} = 3.0$$ --- ## El mètode clàssic: altres paràmetres. Aquests resultats són interessants, però què passa si enlloc de la mitjana vull altres paràmetres (per exemple, els quantils) definits sobre la funció de distribució de probabilitats del fenòmen estudiat? --- ## Un altre mètode alternatiu: *Bootstrap* Podem intentar la via de simular la mostra, però no tenim un model generador de l'entrada de clients a la meva botiga! El mètode de *bootstrap* ens permet crear una aproximació robusta de la distribució mostral d'aquests paràmetres (inclosa la mitjana) a partir d'aplicar un **mostreig aleatori amb reemplaçament**: + Donat un conjunt d'$N$ elements, el mostreig aleatori amb reemplaçament consisteix en: + Assignar un nombre enter a cada element, + Seleccionar $N$ elements del conjunt (alguns d'ells possiblement repetits) mitjançant la generació de $N$ nombres aleatoris de l'interval d'enters $(1, \dots, N)$. --- ## Un altre mètode alternatiu: *Bootstrap* <center><img width="750" src="https://i.imgur.com/Kcmhf1e.png"></center> --- ## Un altre mètode alternatiu: *Bootstrap* <center><img width="450" src="https://i.imgur.com/HRhsgqy.png"></center> Entren 29 $\pm$ 3 persones cada dissabte a la botiga! --- ## Altres aplicacions del *bootstraping*. El mètode de boostraping es pot aplicar per mesurar l'incertesa d'estadístics més complexes, com per exemple a la regressió linial. --- ## Altres aplicacions del *bootstraping*. <center><img width="750" src="https://i.imgur.com/Fxy05T5.png"></center> --- ## Altres aplicacions del *bootstraping*. <center><img width="750" src="https://i.imgur.com/d6tfWn2.png"></center> --- ## Altres aplicacions del *bootstraping*. <center><img width="550" src="https://i.imgur.com/f3eINdo.png"></center> --- ## Altres aplicacions del *bootstraping*. <center><img width="550" src="https://i.imgur.com/HtqaDpb.png"></center> --- ## Reflexions finals. + L'estadística ens ajuda a quantificar l'incertesa d'un resultat, però el **significat** d'un resultat no depèn de les dades ni de la validació dels resultats, sinó de l'analista. + Pensem en el cas que detecto, amb una probabilitat $<0.001$ sota la hipòtesi nul·la, que la diferència entre la durada de l'embaràs del primer fill i del darrer és de 1 segon. És un resultat significatiu? + La casualitat existeix: fins i tot quan l'estadística calcula una probabilitat petita per l'efecte observat sota la hipòtesis nula, el resultat pot ser no real! I al revés! + Sempre cal ser escèptic i no fer proposicions massa agosarades sobre els resultats. L'única forma d'augmentar la certesa sobre algun efecte és repetir l'experiment moltes vegades.
{"metaMigratedAt":"2023-06-16T12:27:37.685Z","metaMigratedFrom":"YAML","title":"Hipòtesis, inferències i A-B Testing","breaks":true,"slideOptions":"{\"theme\":\"white\",\"transition\":\"fade\"}","description":"Les dades no parlen, és l’analista que les fa parlar. Hi ha moltes explicacions compatibles amb les dades, que sovint només es poden resoldre fent experiments.","contributors":"[{\"id\":\"27c1cf26-ef2c-44cb-8ae1-2edc488d3f8e\",\"add\":26811,\"del\":7686,\"latestUpdatedAt\":null}]"}
    1929 views