řsss-základ
, matika
, mv013
Statistika. Popisná statistika (charakteristiky polohy a variability, pořádkové statistiky, statistiky asociace, související grafy). Diskrétní a spojité náhodné veličiny (NV). Náhodný výběr. Parametrické pravděpodobnostní modely (distribuce) NV. Centrální limitní věta. Princip věrohodnosti, bodové a intervalové odhady. Statistická inference - testování hypotéz, hladina významnosti, koeficient spolehlivosti. Testování hypotéz na jednom vzorku, dvou vzorcích, více než dvou vzorcích (včetně jednovýběrových, dvouvýběrových a párových t-testů, ANOVA a post-hoc testů), testů dobré shody. Lineární regresní model. (MV013)
Vzorce a formální definice.
Vzorce a definice
Volné definice a vysvětlení.
Vysvetlenie
Príklad
Zdroj, další zdroje na přečtení
Takto *[MV013]
sú označené pojmy, ktoré nie sú v zadaní otázky, no preberali sa na MV013 a môžu sa zísť.
Disclaimer: poznámky sú z veľkej miery prevzaté z materiálov vypracovaných študentami umelej inteligencie a spracovania dát na podzim 2020.
Statistika je vědní obor, který se zabývá sběrem, organizací, analýzou, interpretací a prezentací empirických dat za účelem prohloubení znalostí určité oblasti, obvykle hromadného jevu.
Popisná statistika je statistika, která kvantitatívně popisuje nebo sumarizuje vlastnosti nějaké sady dat, zatímco popisná statistika představuje proces používání a analýzy těchto popisných statistik
Popisná statistika se od infereční statistiky liší cílem shrnout, resp. popsat vzorek dat namísto odvodzování poznatků o populaci, kterou reprezentuje daný vzorek.
Typy proměnných
Má zmysel daná charakteristika pre daný typ premennej?
charakteristika číselná nominálna ordinálna priemer medián modus kvantil rozptyl smerodajná odchýlka Giniho koeficient entropia
Typická hodnota, která vystihuje danou sadu hodnot. Některé mohou být vhodnější (víc vystihující) než jiné.
Součet hodnot dělený počtem hodnot.
*[MV013]
Príklad: hodnoty 7, 11, 2, 6, 14 usporiadané 2, 6, 7, 11, 14
-trimmed mean = by znamenalo odstranit 20 % nejnižších a 20 % nejvyšších hodnot, tudíž by výsledá sada byla 6, 7, 11.
Príklad: Máme sadu 1, 5, 7, 8, 9, 10, 34. Po aplikaci winsorized mean dostaneme 5, 5, 7, 8, 9, 10, 10.
Hodnota nacházející se přesně v polovině seřazeného seznamu hodnot.
Jinak řečeno, polovina hodnot je menší než medián a polovina je větší než medián.
pre nepárne (liché) , pre párne (sudé) .
Hodnota, která se v sadě hodnot vyskytuje nejčastěji, nemusí být určená jednoznačně.
Hodnota, která je větší nebo rovna jako % hodnot ze sady.
Průměr ze součtu čtverců (sum of squares).
Říká, jak moc se liší hodnoty od průměru.
Odmocnina z rozptylu.
Říká, jak moc se průměrně liší jednotlivé hodnoty od průměrné hodnoty.
Pokud budeme mít v sadě 2 hodnoty: 2 a 4, jejich průměr je 3. Obě dvě hodnoty se liší od průměru o 1. Tudíž směrodatná odchylka je 1.
*[MV013]
*[MV013]
- Šikmost značí, že hodnoty náhodné veličiny jsou rovnoměrně rozdělené vlevo a vpravo od střední hodnoty.
- Šikmost (right-skewed distribution) značí, že vpravo od průměru se vyskytují odlehlejší hodnoty než vlevo (rozdělení má tzv. right tail) a väčšina hodnôt sa nachádza blízko vľavo od priemeru.
- Pro šikmost (left-skewed distribution) platí opak.
- Symetrické rozdělení (včetně normálního) mají šikmost
- Pro rozdělení s kladnou šikmostí obvykle platí, že modus je menší než medián a ten je menší než střední hodnota (pro zápornou šikmost naopak).
Wikipedia
*[MV013]
- Špičatost značí, že většina hodnot náhodné veličiny leží blízko její střední hodnoty a hlavní vliv na rozptyl mají málo pravděpodobné odlehlé hodnoty. Křivka hustoty je špičatější než při normálním rozdělení.
- Špičatost značí, že rozdělení je rovnoměrnější a křivka jeho hustoty je víc plochá než pri normálním rozdělení.
- Normálne rozdelenie má špicatosť .
- Špicatosť rozdelenia nezávisí od lineárnej transformácie náhodnej veličiny, je teda napr. rovnaká pre všetky normálne rozdelenia.
Wikipedie
http://kfe.fjfi.cvut.cz/~limpouch/sigdat/statodn/node5.html
http://user.mendelu.cz/drapela/Statisticke_metody/teorie text II.pdf
Pořádková statistika = vzestupně uspořádané prvky souboru .
Z takto vytvořené pořádkové statistiky lze konstruovat kvantilové charakteristiky.
Statistiky asociace jsou faktory nebo koeficienty, které kvantifikují vztah mezi dvěma nebo vícero veličinami.
Kovariance je statistickou mírou lineární závislosti dvou veličin.
Wikipedia
Nech a .
Kovariance je definována následovně:
Od každého prvku výběru odečteme výběrový průměr (výběrový průměr je průměr vybraných prvků) , od každého prvku výběru odečteme výběrový průměr , rozdíly mezi sebou podle indexů vynásobíme (, atď.), výsledné součiny sčítáme a vydělíme .
Vzorec předpokladá, že výběry a mají stejnou velikost .
Pokud je , obě proměnné se mění stejným směrem (pokud roste jedna, roste i druhá a naopak), jsou si úměrné.
Pokud je , proměnné jsou nepřímo úměrné.
Pokud je , proměnné na sobě nezávisí.
Kovariance nám nic neříká o síle vazby - je vyjádřená v jednotkách X a Y.
Korelace znamená vzájemný vztah mezi dvěma procesy nebo veličinami. Pokud se jedna z nich mění, mění se korelativně i druhá a naopak. Pokud se mezi dvěma procesy ukáže korelace, je pravděpodobné, že na sobě závisejí, nelze z toho však ještě usoudit, že by jeden z nich musel být příčinou a druhý následkem. To samotná korelace nedovoluje rozhodnout, protože korelace neimplikuje kauzalitu.
Wikipedia
Korelace je normalizovaná kovariance.
Nech a .
Korelácia je definovaná nasledovne:
Korelace se počítá podobně jako kovariance, ale čitatel se dělí odmocninou ze součinu součtu čtverců (sum of squares) pro a pro .
Hodnota znamená silný pozitivní lineární vztah, silný negativní lineární vztah a značí, že mezi veličinami neexistuje lineární vztah.
Interpretace korelace v přírodních vědách:
- malá nebo žádná korelace.
- slabá korelace
- střední korelace
- silná korelace
Korelace představuje kovarianci na škále .
Korelační matice je tabulka, která zobrazuje korelační koeficienty pro vybrané proměnné. Je to dobrý nástroj pro vizualizaci závislostí proměnných v datasetu.
Korelace mezi "Hours spent studying" a "Exam score" je silně pozitivní, tudíž to znamená, že pokud jsme strávili učením hodně hodin, dosáhli jsme lepších výsledků.
Kdežto "Hour spent studying" a "Hours spent sleeping" má negativní korelaci, což znamená, že pokud jsme více hodin studovali, tak jsme méně hodin spali a naopak.
Příklad žádné korelace může být "IQ score" a "Hour spent sleeping". Kolik hodin spánku si dopřáváme nemá prakticky žádný vliv na naše IQ
Vizualizuje hodnoty dvoch premenných v 2D priestore. Využíva sa na sledovanie vzťahov medzi premennými.
V prípade, že sa scatterplot používa na zobrazenie korelácie medzi premennými, zvykne sa do grafu priložiť krivka, ktorá reprezentuje tento vzťah.
Obrázek ukazuje korelaci výnosů z prodeje zmrzliny v závislosti na venkovní teplotě. Scatterplot vykazuje pozitivní korelaci, protože výnosy zmrzliny byly vyšší při vyšších (teplejších) teplotách.
Vizualizuje correlation matrix. Užitočné pri veľkom počte premenných.
Prakticky stejné jako correlation matrix.
Jedna z variánt korelogramu:
Boxplot delí dáta na sekcie obsahujúce približne 25 % dát v dátovom súbore. Poskytujú vizuálnu sumarizáciu, vďaka ktorej je jednoduché rýchle určiť priemer, šikmosť dát, kvantily a extrémne hodnoty (outliers).
Náhodná veličina je libovolná veličina, kterou je možné opakovaně měřit a její hodnoty zpracovávat metodami pravděpodobnosti nebo statistiky. Tyto hodnoty jsou před vykonáním experimentu, resp. pozorováním, neznámé.
Wikipédia
Přesněji, náhodná veličina je funkce, která přiřazuje každému elementárnímu náhodnému jevu nějakou (zpravidla číselnou) hodnotu (například při hodu mincí "panně" nulu a "orlu" jedničku).
Wikipédia
Nech je pravděpodobnostní prostor.
MV013, 3. prednáška
Príklady:
- počet hláv pri 10-krát opakovanom hode mincou,
- počet dopravných nehôd za deň,
- doba čakania na autobus,
- výška náhodne vybraného študenta.
Náhodná veličina môže byť diskrétna alebo spojitá.
Náhodná veličina je diskrétní, pokud se prvky výběrového prostoru zobrazí na ose reálných čísel jako izolované body, označené , přičem každý z těchto bodů má nenulovou pravděpodobnost.
Pravděpodobnost, že diskrétní náhodná veličina bude mít po vykonání náhodného pokusu hodnotu , značíme nebo .
Výsledkem jednoho náhodného pokusu bude, že náhodná veličina bude mít právě jednu hodnotu. Součet pravděpodobností všech možných hodnot diskrétní náhodné veličiny je rovný 1.
Diskrétní náhodnou veličinou je tedy všechno, čo může nabýt jen jednotlivé hodnoty z konečného nebo nekonečného intervalu, tzn. může se změnit pouze skokově.
Príklad: pravdepodobnosť hodu kockou – kocka vie nadobudnúť len hodnoty od 1 po 6.
Rozdelenie pravdepodobnosti diskrétnej náhodnej veličina sa vyjadrí tak, že sa určí pravdepodobnosť pre všetky z definičného oboru veličiny . Pravdepodobnosti týchto hodnôt sú vyjadrené funkciou , ktorá sa nazýva pravdepodobnostnou funkciou
Platí, že vo výberovom priestore majú prvky súčet svojich pravdepodobností rovný 1.
Hodnoty pravdepodobnostnej funckie sa často vyjadrujú tabuľkou. Príklad:
0,2 0,3 0,5
Pravdepodobnostnú funkciu vieme využiť k výpočtu pravdepodobnosti. Napríklad pravdepodobnosť, že náhodná veličina leží medzi hodnotami a môže byť vyjadrená ako , čo znamená, že sčítame pravdepodobnosti nadobudnutia hodnôt v danom rozsahu.
Rozdelenie početnosti diskrétnej náhodnej veličiny:
Pomocou pravdepodobnostnej funkcie je možné zaviesť distribučnú funkciu vzťahom
Distribuční funkce je neklesající a spojitá zprava. Hodnoty distribuční funkce leží v rozsahu . Pro diskrétní náhodnou veličinu je možné pro libovolné reálné číslo vyjádřit distribuční funkci vztahem:
Distribuční funkce nám říká, s jakou pravděpodobností nabude náhodná veličina hodnoty menší-rovno x.
Pro popis diskrétních náhodných veličin se používají různé charakteristiky. Jednou z nejdůležitějších je střední hodnota označená jako , která je definovaná následujícím vzorcem:
Rozptyl náhodné veličiny se značí a vyjadřuje velikost odchylek hodnot náhodné veličiny od její střední hodnoty. Vyjadřuje se jako:
Směrodatná odchylka, označená jako , je definovaná jako odmocnina z rozptylu:
Střední hodnota představuje číslo, okolo kterého kolísají výběrové průměry vypočítané ze série pozorovaných hodnot náhodné veličiny. Vypočítá se jako součet vynásobení hodnoty náhodné veličiny s její pravděpodobností.
Příklad:
- Mějme náhodnou veličinu, která s pravděpodobností 0,3 nabývá hodnoty 1, s pravděpodobností 0,2 nabývá hodnoty 2 a s pravděpodobností 0,5 nabývá hodnoty 3.
Střední hodnota je pak (0,3 × 1) + (0,2 × 2) + (0,5 × 3) = 2,2.
Náhodná veličina je spojitá, pokud její hodnoty přiřazené prvkům výběrového prostoru tvoří interval na ose reálných čísel, přičemž každý bod tohoto intervalu má nenulovou pravděpodobnost.
Spojitou náhodnou veličinou je tedy všechno, co nabývá spojité hodnoty. Nabývá hodnoty z konečného nebo nekonečného intervalu, tzn. může se měnit spojitě bez skoků.
Príklad: doba čakania na šalinu, analógový signál
Hustota pravděpodobnosti popisuje chování náhodné veličiny. Hustota představuje ekvivalent pravděpodobnostní funkce diskrétní náhodné veličiny, a teda platí:
Pravděpodobnost, že spojitá náhodná veličina nabyde hodnoty z intervalu může být vypočítáná jako:
Plocha pod křivkou rozdělení se rovná jedné, protože pokrývá všechny hodnoty, které může náhodná veličina nabývat.
Distribuční funkce spojitá náhodná veličiny je nezáporná funkce:
Distribuční funkci je možné vyjádřit jako plochu pod křivkou pravděpodobnostního rozdělení.
Pravděpodobnost, že spojitá náhodná veličina nabyde hodnoty z intervalu může být zároveň vyjádřená i pomocí distribuční funkce, a to následujícím způsobem:
Od pravdepodobnosti, že náhodná veličina nadobudne hodnoty a menšie odčítame pravdepodobnosť, že nadobude hodnoty a menšie. Ostane nám teda plocha medzi bodmi a , ktorá značí pravdepodobnosť, že nadobudne hodnoty v tomto intervale.
Vyznačení hodnoty distribuční funkce :
K popisu spojité náhodné veličiny se používají číselné charakteristiky. Nejdůležitější z nich je střední hodnota (očekávaná hodnota), označovaná jako , ekvivalentně i , definovaná jako:
Další charakteristikou je rozptyl, označovaný jako nebo i , který je možné vyjádřit jako:
K popisu hodnot rozptýlení spojité náhodné veličiny se používá nejčastěji směrodatná odchylka, označená jako . Je definovaná jako:
Střední hodnota u spojité náhodné veličiny má stejný význam jako při diskrétní.
Příklad
- Mějme náhodnou veličinu, jejíž hustota pravděpodobnosti na intervalu <0,1> je f(x) = 2x, jinde identicky rovna nule. To je rozdělení, v němž je hustota pravděpodobnosti přímo úměrná hodnotě x.
- Střední hodnota uvedené náhodné veličiny tedy je .
Náhodný výber je uspořádaná n-tice náhodných veličin , které jsou stochasticky nezávislé a mají stejné rozdělení (ale nemusíme ho konkrétně znát).
Realizací náhodného výběru jsou konkrétní hodnoty .
Příklad: Budeme chtít získat informace o průměrném platu v ČR. Abychom měli přesné informace, museli bychom se zeptat všech občanů na jejich plat. Toto je prakticky neproveditelné, proto učiníme náhodný výběr lidí a těch se zeptáme na jejich plat, z čehož vypočítáme průměr.
Statistika je libovolná funkce náhodného výběru.
https://mathstat.econ.muni.cz/media/12421/nahodny_vyber_statistika.pdf
https://web.vscht.cz/~zikmundm/astat/poznamky_k_AS_7.pdf
Pre fajnšmekrov: Databáza rozdelení pravdepodobnosti
Pre menších fajnšmekrov: Tabuľka vzťahov medzi rozdeleniami
Popisuje události s dvěma možnými výsledky (úspěch, neúspěch), přičemž úspěch má pravděpodobnost , neúspěch .
=
Príklad: Hod mincí.
Náhodná veličina má Bernoulliho rozdělení s parametrem pokud je její pravděpodobnostní funkce definována následovně:
Pravděpodobnostní funkce pro
Distribuční funkce pro
Popisuje počet úspěchů v opakovaných (mezi sebou nezávislých) Bernoulliho pokusech, přičemž je pravděpodobnost úspěchu v jednom pokusu.
Příklad: Hazíme desetkrát kostkou, jaká je pravděpodobnost, že právě čtyřikrát padne šestka?
Náhodná veličina má binomické rozdělení s parametry a pokud je její pravděpodobnostní funkce definovaná následovně:
Pravděpodobnostní funkce:
Pozn.: graf pripomína pravdepodobnostnú funkciu normálneho rozdelenia, viď napr. aproximácia normálnym rozdelením pomocou centrálnej limitnej vety.
Distribuční funkce:
Popisuje počet výskytův nezávislé události za fixní (časový/prostorový/…) interval.
Príklad: počet příchozích hovorů do call centra za hodinu; počet narozených dětí v Česku za den
Příklad na poissonovo rozdělení.
Náhodná veličina má Poissonovo rozdělení s parametrem pokud je její pravděpodobnostní funkce definovaná následovně:
Pravdepodobnostná funkcia:
Distribučná funkcia:
Popisuje počet selhání v opakovaném Bernoulliho experimentu před prvním úspěchem.
Příklad: počet selhání než na kostce hodíme šestku; počet přenesených bitů než se stane první chyba (pokud přenášíme pouze do první chyby).
Náhodná veličina má geometrické rozdělení s parametrem pokud je její pravděpodobnostní funkce definovaná následovně:
Někdy se definuje i jako pro , podle toho, jestli nás zajímá počet selhání před úspěchem (vyšší) nebo počet pokusů potřebných na dosáhnutí prvního úspěchu (tj. pokus včetně toho úspěšného).
Pravděpodobnostní funkce:
(vľavo definícia "vrátane", vpravo definícia "počet zlyhaní")
Distribučná funkcia:
(vľavo definícia "vrátane", vpravo definícia "počet zlyhaní")
Stejná pravděpodobnost pro každý jev z množiny .
Příklad: poslední cifra náhodně vybraného telefonního čísla; házení kostkou
Náhodná veličina má diskrétní rovnoměrné rozdělení na konečné množině pokud je její pravděpodobnostní funkce definovaná následovně:
Pravděpodobnostní funkce:
Distribuční funkce:
Přiřazuje všem hodnotám náhodné veličiny stejnou pravděpodobnost. Používá se při generování pseudonáhodných čísel.
Spojitá náhodná veličina X má rovnoměrné rozdělení na intervalu , kde parametry jsou libovolné reálné čísla, pro které platí, že právě tehdy, pokud její hustota pravděpodobnosti má následující tvar:
Distribuční funkce má tvar:
Funkce hustoty rozdělení:
Vyjadřuje čas mezi náhodně se vyskytujícími událostmi. Využíva se například v pojistné matematice pri určení času mezi pojistnými událostmi. Pravděpodobnost nástání události nezávisí na přečkané době.
Spojitá náhodná veličina X má exponenciální rozdělení s parametrem právě tehdy, pokud její hustota pravděpodobnosti má následující tvar:
Distribučná funkcia má tvar:
Příklad: (https://is.muni.cz/do/rect/el/estud/prif/ps15/statistika/web/pages/exponencialni.html)
Hustota exponenciálneho rozdelenia:
Normálne rozdělení, někdy nazývané i Gaussovo rozdělení, je najčastejšie používané rozdelenie. Má mnoho významných teoretických vlastností a z hľadiska aplikácie býva vhodné na vyjadrenie náhodných veličín, ktoré je možné interpretovať ako aditívny výsledok veľa nezávislých vplyvov (chyba merania, odchýlka rozmeru výrobku od požadovanej hodnoty, atď).
Normálne rozdelenie pravdepodobnosti s parametrami (střední hodnota) a (směrodatná odchylka), kde má hustotu:
Rozdelenie sa označuje ako normované alebo štandardizované normálne rozdelenie. Toto rozdelenie má teda hustotu:
Grafy hustôt normálneho rozdelenia:
Grafy odpovedajúcich distribučných funkcií:
Transformáciou náhodnej veličiny s rozdelením na náhodnú veličinu
dostaneme náhodnú veličinu s normovaným (standardizovaným) normálním rozdělením a distribučnou funkciou .
Zmenšování parametru posouvá rozdělení po ose vlevo, zvětšování ho posouvá vpravo. Čím větší je parameter , tým víc plochá je křivka (hodnoty se víc liší od průměru). Standardizací se od náhodné veličiny odečítá její střední hodnota , čímž se křivka posune na x-ové ose na bod 0.
Pre hodnoty distribučnej funkcie normovaného normálneho rozdelenia platí
dostaneme náhodnou veličinu s normovaným (standardizovaným) normálním rozdělením .
Pre kvantily normovaného normálneho rozdelenia platí
kde .
Tieto vlastnosti plynú zo stredovej symetrie rozloženia. Pre ilustráciu si môžeme za pri výpočte hodnoty distribučnej funkcie dosadiť číslo 0,5. Po odčítaní hodnoty od 1 dostaneme pravdepodobnosť, ktorá je vďaka stredovej symetrii rovnaká ako
Ak má náhodná veličina normálne rozloženie , jej distribučnú funkciu je možné vyjadriť ako
Rozdělení se používá při určování intervalových odhadů neznámých parametrů a při testování hypotéz, například když chceme určit, zda množina dat vyhovuje dané distribuční funkci - viz. https://www.youtube.com/watch?v=2QeDRsxSF9M.
Rozdelenie chi kvadrát, taktiež nazývané aj Pearsonovo rozdelenie, s stupňami voľnosti je spojité rozdelenie pravdepodobnosti. Hustota pravdepodobnosti rozdelenia má tvar
Grafy hustôt chi kvadrát rozdelenia:
značí počet stupňov voľnosti
Logaritmicko-normálne rozdelenie s parametrami a je spojité rozdělení pravděpodobnosti jednorozmernej reálnej náhodnej veličiny také, že náhodná veličina má normálne rozdelenie so strednou hodnotou a smerodajnou odchýlkou .
Hustota logaritmicko-normálneho rozdelenia má tvar
Hustoty logaritmicko-normálneho rozdelnia:
Studentovo rozloženie je spojité rozdelenie pravdepodobnosti, ktoré sa najčastejšie používa pri určovaní intervalových odhadov a pri testovaní štatistických hypotéz.
Nech je náhodná veličina a je prirodzené číslo. Potom táto náhodná veličina má Studentovo rozloženie (taktiež nazývané aj t-rozloženie) s stupňami voľnosti, pokiaľ jej hustota pravdepodobnosti má nasledovný tvar
Stupne voľnosti reprezentujú počet nezávislých údajov, na ktorých je založený parametrický odhad.
Funkcia hustoty Studentovho rozdelenia:
( značí počet stupňov voľnosti)
CLV na portálu matematické biologie
StatQuest: The Central Limit Theorem [YouTube] - Perfektně vysvětleno
Centrální limitní věta je klíčové matematické tvrzení, které popisuje pravděpodobnostní chování výběrového průměru pro velké vzorky a umožňuje tak sestrojení intervalových odhadů, a to nejen pro normálně rozdělené náhodné veličiny.
Lindeberg-Lévy CLV
Mějme posloupnost nezávislých, stejně rozdělených náhodných veličin (a.k.a. náhodný výběr), které mají konečnou střední hodnotu a rozptyl . Pak asymptoticky pro platí:
Komentář: bez ohledu na to, z jakého rozdělení máme náhodné výběry, výběrový průměr bude mít (pro dostatečně velké ) asymptoticky normální rozdělení s určitými parametry (viz. výše). Po vhodné normalizaci výběrového průměru dostaneme asymptoticky standardní normální rozdělení (viz. a výše).
Díky CLV nepotřebujeme vědět, z jakého rozložení pocházejí naše hodnoty. Pokud máme hodnoty výběrového průměru (které dle CLV budou mít normální rozložení), můžeme z nich počítat confidence intervaly, dělat t-testy (kde se ptáme, jestli jsou nějaké rozdíly mezi výběrovými průměry dvou vzorků), ANOVA a další statistické analýzy, které počítají s výběrovým průměrem.
Centrální limitní věta funguje dokonce i tehdy, když rozdělení původní náhodné veličiny není spojité, ale diskrétní.
Zjednodušená interpretace CLV: pokud je rozdělení pravděpodobnosti náhodné veličiny normální, pak je i rozdělení průměru pozorovaných hodnot normální (a to i pro ). Pokud však rozdělení pravděpodobnosti náhodné veličiny normální není, pak je rozdělení průměru pozorovaných hodnot přibližně normální, když je dostatečně velké (matematicky řečeno, pro jdoucí do nekonečna).
Minimální velikost souboru pro výpočet průměru (Lindeberg-Lévy):
- v případě rozdělení pravděpodobnosti podobných normálnímu;
- pro rozdělení, která nejsou podobná normálnímu
(názory na minimální hodnoty se liší)
Teorie a zároveň princip použití CLV pro výpočet pravděpodobnosti:
MV013, lecture 4
cdf = cumulative distribution function (distribuční funkce)
MV013, lecture 4
Příklad výpočtu s použitím CLV
MV013, lecture 4
Continuity correction (oprava na spojitost) se používá při aproximaci diskrétního rozdělení spojitým.
V případě uvedeném výše, kde jsme v prvním případě (spojité) spočítali, že pravděpodobnost, že ze 100 hodů padne nanejvýš 15 šestek (P(X < 16)), je 0.429 (vzali jsme distribuční funkci a spočítali F(16)). V druhém případě jsme se dívali na diskrétní pravděpodobnost P(X 15), tzn. F(15) = 0.327, což je jiný výsledek než 0.429. Pro tento případ využijeme continuity correction a spočítáme F(15.5) = 0.377.Pro diskrétní rozdělení . Pokud platí podmínky Moivre-Laplaceové CLV, dá se výše uvedené aproximovat pomocí
Cílem odhadu je určení neznámého parametru náhodné veličiny na základě informace obsažené ve výběrovém souboru (realizace náhodné veličiny, datasetu). Zajímá nás především hodnota a přesnost odhadu.
Většinou chceme odhadnout průměr nebo rozptyl (variance).
Například chceme odhadnout průměrný plat v ČR. Abychom měli přesnou hodnotu, museli bychom znát plat každého člověka v ČR, což je nemožné. Učiníme proto náhodný výběr vzorku populace, zjistíme jejich platy a na základě toho vypočítáme (odhaneme) průměrný plat v celé ČR.
Nestranný odhad (unbiased estimator) parametru je odhad, jehož střední hodnota je rovna θ a to pro každou hodnotu, které může tento parametr ze své definice nabývat. Nestrannost odhadu je celkem logickým omezením, které nám říká, že tento odhad má vzhledem ke střední hodnotě nulové vychýlení.
Odhad je unbiased, pokud se průměrně rovná pravé hodnotě odhadovaného parametru.
https://stats.stackexchange.com/a/31047
Nejlepší nestranný odhad má ze všech nestranných odhadů nejmenší rozptyl (variabilitu).
Příklad nestranného odhadu: výběrový průměr jako odhad střední hodnoty (parametru ) normálního rozdělení.
Konzistentní odhad (consistent estimator) odhad je konzistentní, pokud se zvětšujícím se vzorkem konverguje k pravé hodnotě odhadovaného parametru. To be slightly more precise - consistency means that, as the sample size increases, the sampling distribution of the estimator becomes increasingly concentrated at the true parameter value.
https://stats.stackexchange.com/a/31047
Parametr odhadujeme pomocí jedné hodnoty, která se snaží hodnotu parametru aproximovat.
MV011
Příklad použití je stejný, jako uvedený výše s odhadováním platu.
Parametr odhadujeme pomocí intervalu, který daný parametr s velkou pravděpodobností obsahuje. Délka intervalu vypovídá o přesnosti odhadu.
Příklad: Chceme odhadnout průměrnou výšku lidí v České republice. Proto učíníme několik náhodných výběrů lidí (např. 10x vybere náhodně 10 lidí). Z techto vybraných skupin pro každou vypočítáme výběrový průměr (sample mean). Tyto výběrové průměry nám dávají "confidence interval", který říká, že průměr celé populace s velkou pravděpodobností spadá do confidence intervalu. Viz. https://youtu.be/ENnlSlvQHO0
Interval spolehlivosti (konfidenční interval) pro parametr se spolehlivostí , kde , je dvojice statistik taková, že
- Intervalový odhad je konkrétní realizace intervalu spolehlivosti.
- Koeficient nazýváme hladinou významnosti.
- Pro oboustranný intervalový odhad platí
- Pro levostranný (dolní) intervalový odhad platí
- Pro pravostranný (horní) intervalový odhad platí
Tvorba intervalového odhadu
- Zvolíme vhodnou výběrovou charakteristiku jejíž rozdělení závislé na známe.
- Určíme a kvantily a z
- Stanovíme meze pro z podmínky
- Profit!
Příklad: intervalový odhad střední hodnoty normálního rozdělení s neznámým rozptylem se spolehlivostí . Máme vzorek velikosti s výběrovým průměrem a výběrovým rozptylem .
- Zvolíme statistiku
- Z vlastností Studentova rozdělení víme:
- Dosadíme:
- Využijeme , tedy:
- Vytáhneme vše z prostředku:
- Vyčíslíme.
MLE se snaží na základě jednotlivých data pointů odhadnout distribuci datasetu.
Log-likelihood funkce a likelihood funkce mají maximum ve stejném bodě, s log-likelihoodom se lépe pracuje.
Alternatívní metody odhadování parametrů:
Obě metody jsou neparametrické -> MLE využívá informáci o rozdělení pravděpodobnosti a je most efficient estimator.
Nevýhody: složitější výpočet, potřeba řešit předpoklady o rozdělení (v případě potřeby se dá použít CLV).
Cílem testování hypotéz je oveřit, jestli data nepopírají předpoklad (hypotézu).
Nulová hypotéza
Alternativní hypotéza
Alternatívní hypotéza je to, co nás ve skutečnosti zajímá.
-value je pravděpodobnost, že při platnosti nabývá testová statistika své stávající hodnoty anebo hodnot ještě extrémnějších
Zároveň je to taky nejmenší hladina významnosti, při které ještě zamítáme
Pokud je -value menší než , zamítáme
Pokud je -value větší než , nezamítáme
StatQuest - p-value explained
Chyba 1. typu nastane, když odmítneme navzdory tomu, že ve skutečnosti platí.
Chyba 2. typu nastane, když neodmítneme navzdory tomu, že ve skutečnosti neplatí.
platí | platí | |
---|---|---|
odmítáme | ![]() |
![]() |
neodmítáme | ![]() |
![]() |
ANOVA (ANalysis Of VAriance) je parametrickým testem testujícím zda na hodnotu náhodné veličiny má statisticky významný vliv hodnota některého znaku, který se u náhodné veličiny dá pozorovat.
Motivací pro neparametrické testy je fakt, že pro parametrické testy je třeba splnit podmínky (normalita, homogenita, …). Nevýhodou neparametrických je však slabší test (tedy zamítnutí je méně pravděpodobné).
Linear regression model je matematická metoda používaná pro proložení souboru bodů v grafu přímkou.
StatQuest - Linear Regression
Příklad lineární regrese
Lineární regrese představuje aproximaci daných hodnot přímkou metodou nejmenších čtverců. Zkusíme body proložit přímkou a od každého z nich vypočítat vzdálenost k přímce (tato vzdálenost se nazýva "residual"). Toto opakujeme tak dlouho, dokud suma "residuals" není nejmenší.
Ano, toto je linear regression model.
Je to model
Lineárni model znamená, že je lineární v parametrech , ne nutně v regressorech .
MV013-11.pdf slide 23
Outlier point (odlehlý) je bod, který se značně liší od ostatních bodů a zároveň nesedí do našeho modelu.
- Například. člověk co měří 3 metry a váží 50 kilo bude outlier.
Leverage point (pákový) je bod, který se také značně liší od ostatních hodnot, ale má velký vliv na odhad našich parametrů.
Skupina 1 - jsou to outliers, ale ne leverage points
Skupina 2 - Leverage points, ale nejsou to outliers
Skupina 3 - Leverage points a zároveň outliers.
Na grafu je znázorněn model s outlier bodem (outlier bod je označen modrou barvou a model tlustou čárou). Model s tentou čárou nebere tento bod v potaz a je vyznačen tenkou čárou.
Linear regression - final remarks
Nevýhody: