řsss-základ
, matika
, mv013
Statistika. Popisná statistika (charakteristiky polohy a variability, pořádkové statistiky, statistiky asociace, související grafy). Diskrétní a spojité náhodné veličiny (NV). Náhodný výběr. Parametrické pravděpodobnostní modely (distribuce) NV. Centrální limitní věta. Princip věrohodnosti, bodové a intervalové odhady. Statistická inference - testování hypotéz, hladina významnosti, koeficient spolehlivosti. Testování hypotéz na jednom vzorku, dvou vzorcích, více než dvou vzorcích (včetně jednovýběrových, dvouvýběrových a párových t-testů, ANOVA a post-hoc testů), testů dobré shody. Lineární regresní model. (MV013)
Vzorce a formálne definície.
Vzorce a definície
Voľné definície a vysvetlenia.
Vysvetlenie
Príklad
Takto *[MV013]
sú označené pojmy, ktoré nie sú v zadaní otázky, no preberali sa na MV013 a môžu sa zísť.
Disclaimer: poznámky sú z veľkej miery prevzaté z materiálov vypracovaných študentami umelej inteligencie a spracovania dát na podzim 2020.
Statistika je vědní obor, který se zabývá sběrem, organizací, analýzou, interpretací a prezentací empirických dat za účelem prohloubení znalostí určité oblasti, obvykle hromadného jevu.
Popisná štatistika (ako počitateľné podstatné meno) je štatistika, ktorá kvantitatívne popisuje alebo sumarizuje vlastnosti nejakej sady dát, zatiaľ čo popisná štatistika (ako nepočitateľný pojem) predstavuje proces používania a analýzy týchto popisných štatistík.
Typy premenných
Má zmysel daná charakteristika pre daný typ premennej?
charakteristika číselná nominálna ordinálna priemer Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
medián Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
modus Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
kvantil Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
rozptyl Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
smerodajná odchýlka Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Giniho koeficient Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
entropia Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Typická hodnota, ktorá vystihuje danú sadu hodnôt. Niektoré môžu byť vhodnejšie (viac výstižné) než iné.
Súčet hodnôt delený počtom hodnôt.
*[MV013]
Príklad: hodnoty 7, 11, 2, 6, 14
usporiadané 2, 6, 7, 11, 14
-trimmed mean = TODO
Príklad: TODO
Hodnota nachádzajúca sa presne v polovici zoradeného zoznamu hodnôt.
Hodnota, ktorá sa v sade hodnôt vyskytuje najčastejšie, nemusí byť určená jednoznačne.
Hodnota, ktorá je väčšia alebo rovná ako
% hodnôt zo sady.
Priemer zo súčtu štvorcov (sum of squares).
Odmocnina z rozptylu.
*[MV013]
*[MV013]
- Šikmosť
značí, že hodnoty náhodnej veličiny sú rovnomerne rozdelené vľavo a vpravo od strednej hodnoty. - Šikmosť
značí, že vpravo od priemeru sa vyskytujú odľahlejšie hodnoty než vľavo (rozdelenie má tzv. pravý chvost) a väčšina hodnôt sa nachádza blízko vľavo od priemeru. - Pre šikmosť
platí opak. - Symetrické rozdelenia (vrátane normálneho) majú šikmosť
- Pre rozdelenia s kladnou šikmosťou obvykle platí, že modus je menší ako medián a ten je menší ako stredná hodnota (pre zápornú šikmosť naopak).
Wikipedia
*[MV013]
- Špicatosť
značí, že väčšina hodnôt náhodnej veličiny leží blízko jej strednej hodnoty a hlavný vplyv na rozptyl majú málo pravdepodobné odľahlhé hodnoty. Krivka hustoty je špicatejšia než pri nomrálnom rozdelení. - Špicatosť
značí, že rozdelenie je rovnomernejšie a krivka jeho hustoty je viac plochá než pri normálnom rozdelení. - Normálne rozdelenie má špicatosť
. - Špicatosť rozdelenia nezávisí od lineárnej transformácie náhodnej veličiny, je teda napr. rovnaká pre všetky normálne rozdelenia.
Wikipedie
Pořádková statistika = vzestupně uspořádané prvky souboru
Úprimne netuším, čo sem patrí. Mohli by to byť štatistiky, ktoré sú založené na poradí, tj. napr. medián a kvantil, alebo by to mohli byť nejaké zložitejšie štatistiky (rank statistics?).
Štatistiky asociácie sú faktory alebo koeficienty, ktoré kvantifikujú vzťah medzi dvoma alebo viacerými veličinami.
Nech
Kovariancia
Od každého prvku výberu
odčítame výberový priemer , od každého prvku výberu odčítame výberový priemer , rozdiely medzi sebou podľa indexov vynásobíme ( , atď.), výsledné súčiny sčítame a vydelíme .
Vzorec predpokladá, že výberya majú rovnakú veľkosť .
Ak je
, obe premenné sa menia rovnakým smerom (ak rastie jedna, rastie aj druhá a naopak).
Ak je, premenné sú nepriamo úmerné.
Ak je, premenné sa neovplyvňujú.
Normalizovaná kovariancia.Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Nech
Korelácia
Korelácia sa počíta podobne ako kovariancia, ale čitateľ sa delí odmocninou zo súčinu súčtu štvorcov (sum of squares) pre
a pre .
Hodnota
znamená silný pozitívny lineárny vzťah, silný negatívny lineárny vzťah a značí, že medzi veličinami neexistuje lineárny vzťah.
Interpretácie korelácie v prírodných vedách:
- malá alebo žiadna korelácia
- slabá korelácia
- stredná korelácia
- silná korelácia
Korelácia predstavuje kovarianciu na škále
.
Vizualizuje hodnoty dvoch premenných v 2D priestore. Využíva sa na sledovanie vzťahov medzi premennými.
V prípade, že sa scatterplot používa na zobrazenie korelácie medzi premennými, zvykne sa do grafu priložiť krivka, ktorá reprezentuje tento vzťah.
Vizualizuje maticu korelácie. Užitočné pri veľkom počte premenných.
Jedna z variánt korelogramu:
Boxplot delí dáta na sekcie obsahujúce približne 25 % dát v dátovom súbore. Poskytujú vizuálnu sumarizáciu, vďaka ktorej je jednoduché rýchle určiť priemer, šikmosť dát, kvantily a extrémne hodnoty (outliers).
Náhodná veličina je ľubovolná veličina, ktorú je možné opakovane merať a jej hodnoty spracovať metódami pravdepodobnosti alebo štatistiky. Tieto hodnoty sú pred vykonaním experimentu, resp. pozorovania neznáme.
Wikipédia
Náhodná veličina je funkcia, ktorá priraďuje každému elementárnemu náhodnému javu nejakú (spravidla číselnú) hodnotu.
Wikipédia
Nech
je pravdepodobnostný priestor. Náhodná veličina je merateľné priradenie .
MV013, 3. prednáška
Príklady:
- počet hláv pri 10-krát opakovanom hode mincou,
- počet dopravných nehôd za deň,
- doba čakania na autobus,
- výška náhodne vybraného študenta.
Náhodná veličina môže byť diskrétna alebo spojitá.
Náhodná veličina je diskrétna, ak sa prvky výberového priestoru
Pravdepodobnosť, že diskrétna náhodná veličina
Výsledkom jedného náhodného pokusu bude, že náhodná veličina bude mať práve jednu hodnotu. Súčet pravdepodobností všetkých možných hodnôt
Diskrétnou náhodnou veličinou je teda všetko, čo môže nadobudnúť len jednotlivé hodnoty z konečného alebo nekonečného intervalu, tzn. môže sa zmeniť len po skokoch.
Príklad: pravdepodobnosť hodu kockou – kocka vie nadobudnúť len hodnoty od 1 po 6.
Rozdelenie pravdepodobnosti diskrétnej náhodnej veličina sa vyjadrí tak, že sa určí pravdepodobnosť
Platí, že vo výberovom priestore majú prvky súčet svojich pravdepodobností rovný 1.
Hodnoty pravdepodobnostnej funckie sa často vyjadrujú tabuľkou. Príklad:
0,2 0,3 0,5
Pravdepodobnostnú funkciu vieme využiť k výpočtu pravdepodobnosti. Napríklad pravdepodobnosť, že náhodná veličina
leží medzi hodnotami a môže byť vyjadrená ako , čo znamená, že sčítame pravdepodobnosti nadobudnutia hodnôt v danom rozsahu.
Rozdelenie početnosti diskrétnej náhodnej veličiny:
Pomocou pravdepodobnostnej funkcie je možné zaviesť distribučnú funkciu vzťahom
Distribučná funkcia je neklesajúca a spojitá sprava. Hodnoty distribučnej funkcie ležia v rozsahu
Pre popis diskrétnych náhodných veličín sa používajú rôzne charakteristiky. Jednou z najdôležitejších je stredná hodnota označená ako
Rozptyl náhodnej veličiny sa znači
Smerodajná odchýlka, označená ako
Stredná hodnota predstavuje číslo, okolo ktorého kolísajú výberové priemery vypočítané zo série pozorovaných hodnôt náhodnej veličiny. Vypočíta sa ako súčet vynásobenia hodnoty náhodnej veličiny s jej pravdepodobnosťou.
Náhodná veličina je spojitá, ak jej hodnoty priradené prvom výberového priestoru
Spojitou náhodnou veličinou je teda všetko, čo nadobúda spojité hodnoty. Nadobúda hodnoty z konečného alebo nekonečného intervalu, tzn. môže sa meniť spojite bez skokov.
Príklad: doba čakania na šalinu, analógový signál
Hustota pravdepodobnosti popisuje správanie náhodnej veličiny. Hustota predstavuje ekvivalent pravdepodobnostnej funkcie diskrétnej náhodnej veličiny, a teda platí
Pravdepodobnosť, že spojitá náhodná veličina nadobudne hodnoty z intervalu
Plocha pod krivkou rozdelenia sa rovná jednej, pretože pokrýva všetky hodnoty, ktoré môže náhodná veličina nadobudnúť.
Distribučná funkcia spojitej náhodnej veličiny
Distribučnú funkciu
Pravdepodobnosť, že spojitá náhodná veličina nadobudne hodnoty z intervalu
Od pravdepodobnosti, že náhodná veličina
nadobudne hodnoty a menšie odčítame pravdepodobnosť, že nadobude hodnoty a menšie. Ostane nám teda plocha medzi bodmi a , ktorá značí pravdepodobnosť, že nadobudne hodnoty v tomto intervale.
Vyznačenie hodnoty distribučnej funkcie
:
K popisu spojitej náhodnej veličiny sa používajú číselné charakteristiky. Najdôležitejšou z nich je stredná hodnota (očakávaná hodnota), označovaná ako
Ďalšou charakteristikou je rozptyl, označovaný ako
K popisu hodnôt rozptýlenia spojitej náhodnej veličiny sa pouźíva častejšie smerodajná odchýlka, označená ako
Stredná hodnota u spojitej náhodnej veličiny má rovnaký význam ako pri diskrétnej.
Náhodný výber je usporiadaná n-tica náhodných veličín
Realizáciou náhodného výberu sú konkrétne hodnoty
Štatistika je ľubovoľná funkcia náhodného výberu.
Popisuje udalosti s dvoma možnými výsledkami (úspech, neúspech), pričom úspech má pravdepodobnosť
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
=
Príklad: úspešné ukončenie predmetu.
Náhodná veličina
Pravdepodobnostná funkcia pre
Distribučná funkcia pre
Popisuje počet úspechov v
Príklad: počet študentov, ktorí úspešne ukončia predmet.
Náhodná veličina
Pravdepodobnostná funkcia:
Pozn.: graf pripomína pravdepodobnostnú funkciu normálneho rozdelenia, viď napr. aproximácia normálnym rozdelením pomocou centrálnej limitnej vety.
Distribučná funkcia:
Popisuje počet výskytov nezávislej udalosti za fixný (časový/priestorový/…) interval.
Príklad: počet prichádzajúcich hovorov do call centra za hodinu, počet narodených detí v Česku za deň
Náhodná veličina
Pravdepodobnostná funkcia:
Distribučná funkcia:
Popisuje počet zlyhaní v opakovanom Bernoulliho experimente pred prvým úspechom.
Príklad: počet zlyhaní než na kocke hodíme šestku, počet prenesených bitov než sa stane prvá chyba (ak prenášame len do prvej chyby)
Náhodná veličina
Niekedy sa definuje aj ako
pre , podľa toho, či nás zaujíma počet zlyhaní pred úspechom (vyššie) alebo počet pokusov potrebných na dosiahnutie prvého úspechu (tj. s úspechom vrátane).
Pravdepodobnostná funkcia:
(vľavo definícia "vrátane", vpravo definícia "počet zlyhaní")
Distribučná funkcia:
(vľavo definícia "vrátane", vpravo definícia "počet zlyhaní")
Rovnaká pravdepodobnosť pre každý jav z množiny
Príklad: posledná cifra náhodne vybraného telefónneho čísla, počet bodiek na kocke pri jednom hode
Náhodná veličina
Pravdepodobnostná funkcia:
Distribučná funkcia:
Priraďuje všetkým hodnotám náhodnej veličiny rovnakú pravdepodobnosť. Používa sa pri generovaní pseudonáhodných čísel.
Spojitá náhodná veličina X má rovnomerné rozdelenie na intervale
Distribučná funkcia má tvar:
Funkcia hustoty rozdelenia:
Vyjadruje čas medzi náhodne sa vyskytujúcimi udalosťami. Využíva sa napríklad v poistnej matematike pri určení času medzi poistnými udalosťami. Pravdepodobnosť nastania udalosti nezávisí na prečkanej dobe.
Spojitá náhodná veličina X má exponenciálne rozdelenie s parametrom
Distribučná funkcia má tvar:
Hustota exponenciálneho rozdelenia:
Normálne rozdelenie, niekedy nazývané aj Gaussovo rozdelenie, je najčastejšie používané rozdelenie. Má mnoho významných teoretických vlastností a z hľadiska aplikácie býva vhodné na vyjadrenie náhodných veličín, ktoré je možné interpretovať ako aditívny výsledok veľa nezávislých vplyvov (chyba merania, odchýlka rozmeru výrobku od požadovanej hodnoty, atď).
Normálne rozdelenie pravdepodobnosti s parametrami
Rozdelenie
Grafy hustôt normálneho rozdelenia:
Grafy odpovedajúcich distribučných funkcií:
Transformáciou náhodnej veličiny
dostaneme náahodnú veličinu s normovaným (štandardizovaným) normálnym rozdelením
Zmenšovanie parametru
posúva rozdelenie po osi vľavo, zväčšovanie ho posúva vpravo. Čím väčší je parameter , tým viac plochá je krivka (hodnoty sa viac líšia od priemeru). Štandardizáciúou sa od náhodnej veličiny odčíta jej stredná hodnota , čím sa krivka posunie na x-ovej osi na bod 0.
Pre hodnoty
dostaneme náahodnú veličinu s normovaným (štandardizovaným) normálnym rozdelením
Pre kvantily normovaného normálneho rozdelenia platí
kde
Tieto vlastnosti plynú zo stredovej symetrie rozloženia. Pre ilustráciu si môžeme za
pri výpočte hodnoty distribučnej funkcie dosadiť číslo 0,5. Po odčítaní hodnoty od 1 dostaneme pravdepodobnosť, ktorá je vďaka stredovej symetrii rovnaká ako
Ak má náhodná veličina
Rozdelenie zvykne byť používané pri určovaní intervalových odhadov neznámych parametrov a pri testovaní hypotéz.
Rozdelenie chi kvadrát, taktiež nazývané aj Pearsonovo rozdelenie, s
Grafy hustôt chi kvadrát rozdelenia:
značí počet stupňov voľnosti
Logaritmicko-normálne rozdelenie s parametrami
Hustota logaritmicko-normálneho rozdelenia má tvar
Hustoty logaritmicko-normálneho rozdelnia:
Studentovo rozloženie je spojité rozdelenie pravdepodobnosti, ktoré sa najčastejšie používa pri určovaní intervalových odhadov a pri testovaní štatistických hypotéz.
Nech
Stupne voľnosti reprezentujú počet nezávislých údajov, na ktorých je založený parametrický odhad.
Funkcia hustoty Studentovho rozdelenia:
(značí počet stupňov voľnosti)
Centrální limitní věta je klíčové matematické tvrzení, které popisuje pravděpodobnostní chování výběrového průměru pro velké vzorky a umožňuje tak sestrojení intervalových odhadů, a to nejen pro normálně rozdělené náhodné veličiny.
Lindeberg-Lévy CLV
Mějme posloupnost
Komentár: bez ohľadu na to, z akého rozdelenia máme náhodné výbery, výberový priemer bude mať (pre dostatočne veľké
) asymptoticky normálne rozdelenie s určitými parametrami (viď vyššie). Po vhodnej normalizácii výberového priemeru dostaneme asymptoticky štandardné normálne rozdelenie (viď a vyššie).
Centrální limitní věta funguje dokonce i tehdy, když rozdělení původní náhodné veličiny není spojité, ale diskrétní.Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Zjednodušená interpretace CLV: pokud je rozdělení pravděpodobnosti náhodné veličiny
Minimální velikost souboru pro výpočet průměru (Lindeberg-Lévy):
v případě rozdělení pravděpodobnosti podobných normálnímu; pro rozdělení, která nejsou podobná normálnímu (názory na minimálni hodnoty
se liší)
Teória a zároveň princíp použitia CLV pre výpočet pravdepodobnosti:
MV013, lecture 4
MV013, lecture 4
Príklad výpočtu s použitím CLV
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
MV013, lecture 4Continuity correction (oprava na spojitosť) sa používa pri aproximácii diskrétneho rozdelenia spojitým.Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Pre diskrétne rozdelenia
. Ak platia podmienky Moivre-Laplaceovej CLV, dá sa vyššie uvedené aproximovať pomocou
Cieľom odhadu je určenie neznámeho parametru náhodnej veličiny
na základe informácie obsiahnutej vo výberovom súbore (realizácií náhodnej veličiny, datasete). Zaujíma nás predovšetkým hodnota a presnosť odhadu.
Nestranný odhad (unbiased estimator) parametru
Nejlepší nestranný odhad má ze všech nestranných odhadů nejmenší rozptyl (variabilitu).
Příklad nestranného odhadu: výběrový průměr jako odhad střední hodnoty (parametru
) normálního rozdělení.
Konzistentný odhad
Parameter odhadujeme pomocou jednej hodnoty, ktorá sa snaží hodnotu parametru aproximovať.
MV011
Parameter odhadujeme pomocou intervalu, ktorý daný parameter s veľkou pravdepodobnosťou obsahuje. Dĺžka intervalu vypovedá o presnosti odhadu.
Interval spolehlivosti (konfidenční interval) pro parametr
- Intervalový odhad je konkrétní realizace intervalu spolehlivosti.
- Koeficient
nazýváme hladinou významnosti. - Pro oboustranný intervalový odhad platí
- Pro levostranný (dolní) intervalový odhad platí
- Pro pravostranný (horní) intervalový odhad platí
Tvorba intervalového odhadu
- Zvolíme vhodnou výběrovou charakteristiku
jejíž rozdělení závislé na známe. - Určíme
a kvantily a z - Stanovíme meze pro
z podmínky - Profit!
Příklad: intervalový odhad střední hodnoty
normálního rozdělení s neznámým rozptylem se spolehlivostí . Máme vzorek velikosti s výběrovým průměrem a výběrovým rozptylem .
- Zvolíme statistiku
- Z vlastností Studentova rozdělení víme:
- Dosadíme:
- Využijeme
, tedy:
- Vytáhneme vše z prostředku:
- Vyčíslíme.
Log-likelihood funkcia a likelihood funkcia majú maximum v rovnakom bode, s log-likelihoodom sa lepšie pracuje.
Alternatívne metódy odhadovania parametrov:
Obe metódy sú neparametrické -> MLE využíva informáciu o rozdelení pravdepodobnosti a je most efficient estimator.
Nevýhody: zložitejší výpočet, treba riešiť predpoklady o rozdelení (v prípade potreby sa dá použiť CLV).
Cieľom testovania hypotéz je overiť, či dáta nepopierajú predpoklad (hypotézu).
Nulová hypotéza
Alternatívna hypotéza
Alternatívna hypotéza je to, čo nás v skutočnosti zaujíma.
Chyba 1. typu nastane, keď zamietneme
Chyba 2. typu nastane, keď nezamietneme
zamietame |
Image Not Showing
Possible Reasons
|
Image Not Showing
Possible Reasons
|
nezamietame |
Image Not Showing
Possible Reasons
|
Image Not Showing
Possible Reasons
|
ANOVA (ANalysis Of VAriance) je parametrickým testem testujícím zda na hodnotu náhodné veličiny má statisticky významný vliv hodnota některého znaku, který se u náhodné veličiny dá pozorovat.
Motivací pro neparametrické testy je fakt, že pro parametrické testy je třeba splnit podmínky (normalita, homogenita, …). Nevýhodou neparametrických je však slabší test (tedy zamítnutí
je méně pravděpodobné).