matika
, mv013
Náhodná veličina je diskrétna, ak sa prvky výberového priestoru \(Ω\) zobrazia na os reálnych čísel ako izolované body, označené \(x_1, x_2, . . . , x_i,\) pričom každý z týchto bodov má nenulovú pravdepodobnosť.
Pravdepodobnosť, že diskrétna náhodná veličina \(X\) bude mať po vykonaní náhodného pokusu hodnotu \(x,\) značíme \(P(X = x)\) alebo \(P(x)\).
Výsledkom jedného náhodného pokusu bude, že náhodná veličina bude mať práve jednu hodnotu. Súčet pravdepodobností všetkých možných hodnôt \(x\) diskrétnej náhodnej veličiny \(X\) je rovný 1.
\[\sum_x P(x) = 1\]
Diskrétnou náhodnou veličinou je teda všetko, čo môže nadobudnúť len jednotlivé hodnoty z konečného alebo nekonečného diskrétneho intervalu, tzn. môže sa zmeniť len po skokoch.
Príklad: pravdepodobnosť hodu kockou – kocka vie nadobudnúť len hodnoty od 1 po 6.
Rozdelenie pravdepodobnosti diskrétnej náhodnej veličina sa vyjadrí tak, že sa určí pravdepodobnosť \(P(x)\) pre všetky \(x\) z definičného oboru veličiny \(X\). Pravdepodobnosti týchto hodnôt sú vyjadrené funkciou \(P(x)\), ktorá sa nazýva pravdepodobnostnou funkciou
Platí, že vo výberovom priestore majú prvky súčet svojich pravdepodobností rovný 1.
Hodnoty pravdepodobnostnej funckie sa často vyjadrujú tabuľkou. Príklad:
\(x\) | \(P(x)\) |
---|---|
\(x_1\) | 0.2 |
\(x_2\) | 0.3 |
\(x_3\) | 0.5 |
Pravdepodobnostnú funkciu vieme využiť k výpočtu pravdepodobnosti. Napríklad pravdepodobnosť, že náhodná veličina \(X\) leží medzi hodnotami \(x_1\) a \(x_2\) môže byť vyjadrená ako \(P(x1≤X≤x2)= \sum_{x=x_1}^{x_2} P(x)\), čo znamená, že sčítame pravdepodobnosti nadobudnutia hodnôt v danom rozsahu.
Rozdelenie početnosti diskrétnej náhodnej veličiny:
Pomocou pravdepodobnostnej funkcie je možné zaviesť distribučnú funkciu vzťahom
\[F(x) = P(X<x) \]
Distribučná funkcia je neklesajúca a spojitá sprava. Hodnoty distribučnej funkcie ležia v rozsahu \(0 ≤ F(X) ≤ 1\). Pre diskrétnu náhodnú veličinu \(X\) je možné pre ľubovoľné reálne číslo \(x\) vyjadriť distribučnú funkciou vzťahom
\[F(x) = \sum_{t≤x} P(t)\]
Číselné charakteristiky diskrétnej náhodnej veličiny
Pre popis diskrétnych náhodných veličín sa používajú rôzne charakteristiky.
Jednou z najdôležitejších je stredná hodnota označená ako \(E(X)\), ktorá je definovaná nasledujúcim vzorcom
\[E(X) = \sum_{x_k} x_kP(X = x_k)\]
Rozptyl náhodnej veličiny sa znači \(D(X)\) a vyjadruje veľkosť odchyliek hodnôt náhodnej veličiny od jej strednej hodnoty. Vyjadruje sa ako
\[D(X) = \sum_{x_k} x_k^2P(X = x_k) - [E(X)]^2\]
Smerodajná odchýlka, označená ako \(σ(X)\), je definovaná ako odmocnina z rozptylu
\[σ(X) = \sqrt{D(X)}\]
Stredná hodnota predstavuje číslo, okolo ktorého kolísajú výberové priemery vypočítané zo série pozorovaných hodnôt náhodnej veličiny. Vypočíta sa ako súčet vynásobenia hodnoty náhodnej veličiny s jej pravdepodobnosťou.
Náhodná veličina je spojitá, ak jej hodnoty priradené prvom výberového priestoru
\(Ω\) tvorí interval na osi reálnych čísel, pričom každý bod tohto intervalu má nenulovú pravdepodobnosť.
Spojitou náhodnou veličinou je teda všetko, čo nadobúda spojité hodnoty. Nadobúda hodnoty z konečného alebo nekonečného intervalu, tzn. môže sa meniť spojite bez skokov.
Príklad: doba čakania na šalinu, analógový signál
Hustota pravdepodobnosti popisuje správanie náhodnej veličiny. Hustota predstavuje ekvivalent pravdepodobnostnej funkcie diskrétnej náhodnej veličiny, a teda platí
\[\int_{-∞}^∞ f(x)dx = 1\]
Pravdepodobnosť, že spojitá náhodná veličina nadobudne hodnoty z intervalu \(⟨x1;x2⟩\) môže byť vypočítaná ako
\[P(x_1 ≤ X ≤ x_2) = \int_{x_1}^{x_2} f(t)dt\]
Plocha pod krivkou rozdelenia sa rovná jednej, pretože pokrýva všetky hodnoty, ktoré môže náhodná veličina nadobudnúť.
Distribučná funkcia spojitej náhodnej veličiny \(X\) je nezáporná funkcia
\[F(x) = \int_{-∞}^x f(t)dt\]
Distribučnú funkciu \(F(x)\) je možné vyjadriť ako plochu pod krivkou pravdepodobnostného rozdelenia.
Pravdepodobnosť, že spojitá náhodná veličina nadobudne hodnoty z intervalu \(⟨x1;x2⟩\) môže byť zároveň vyjadrená aj pomocou distribučnej funkcie, a to nasledujúcim spôsobom
\[P(x_1 ≤ X ≤ x_2) = F(x_2) - F(x_1) \]
Od pravdepodobnosti, že náhodná veličina \(X\) nadobudne hodnoty \(x_2\) a menšie odčítame pravdepodobnosť, že nadobude hodnoty \(x_1\) a menšie. Ostane nám teda plocha medzi bodmi \(x_2\) a \(x_1\), ktorá značí pravdepodobnosť, že \(X\) nadobudne hodnoty v tomto intervale.
Vyznačenie hodnoty distribučnej funkcie \(F(x_i)\):
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Číselné charakteristiky spojitej náhodnej veličiny
K popisu spojitej náhodnej veličiny sa používajú číselné charakteristiky.
Najdôležitejšou z nich je stredná hodnota (očakávaná hodnota), označovaná ako \(E(X)\), ekvivalentne aj \(EX\), definovaná ako
\[E(X) = \int_{-∞}^∞ xf(x)dx\]
Ďalšou charakteristikou je rozptyl, označovaný ako \(D(X)\) alebo aj \(var(X)\), ktorý je možné vyjadriť ako
\[D(X) = \int_{-∞}^∞ x^2f(x)dx - [E(X)]^2\]
K popisu hodnôt rozptýlenia spojitej náhodnej veličiny sa pouźíva častejšie smerodajná odchýlka, označená ako \(σ(X)\). Je definovaná ako
\[σ(X) = \sqrt{D(X)}\]
Stredná hodnota u spojitej náhodnej veličiny má rovnaký význam ako pri diskrétnej.
Centrální limitní věta je klíčové matematické tvrzení, které popisuje pravděpodobnostní chování výběrového průměru pro velké vzorky a umožňuje tak sestrojení intervalových odhadů, a to nejen pro normálně rozdělené náhodné veličiny.
Lindeberg-Lévy CLV
Mějme posloupnost \(X_1,…,X_n\) nezávislých, stejně rozdělených náhodných veličin (a.k.a. náhodný výběr), které mají konečnou střední hodnotu \(μ\) a rozptyl \(σ^2>0\). Pak asymptoticky pro \(n→∞\) platí:
\[
(1) \overline X = \frac 1n \sum_{i=1}^n X_i ≈ N(μ,\frac {σ^2}n)
\]
\[
(2) \sqrt {n} \frac {\overline X - μ}{\sqrt {σ^2}} ≈ N(0,1)
\]
\[
(3) \frac {\sum_{i=1}^n X_i - nμ}{\sqrt {nσ^2}} ≈ N(0,1)
\]
Komentár: bez ohľadu na to, z akého rozdelenia máme náhodné výbery, výberový priemer bude mať (pre dostatočne veľké \(n\)) asymptoticky normálne rozdelenie s určitými parametrami (viď \((1)\) vyššie). Po vhodnej normalizácii výberového priemeru dostaneme asymptoticky štandardné normálne rozdelenie \(N(0,1)\) (viď \((2)\) a \((3)\) vyššie).
Zjednodušená interpretace CLV: pokud je rozdělení pravděpodobnosti náhodné veličiny \(X\) normální, pak je i rozdělení průměru pozorovaných hodnot normální (a to i pro \(n=1\)). Pokud však rozdělení pravděpodobnosti náhodné veličiny \(X\) normální není, pak je rozdělení průměru pozorovaných hodnot přibližně normální, když \(n\) je dostatečně velké (matematicky řečeno, pro n jdoucí do nekonečna).
Minimální velikost souboru pro výpočet průměru (Lindeberg-Lévy):
(názory na minimálni hodnoty \(n\) se liší)
Teória a zároveň princíp použitia CLV pre výpočet pravdepodobnosti:
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Príklad výpočtu s použitím CLV
Nech \(X\) je náhodná premenná popisujúca číslo 6 keď hodíme kocku 100krát.
- \(X\) má binomické rozloženie \(Binomial(100, 1/6)\)
Podľa CLV - \(X\) má asymptoticky normálne rozloženie \(\mathcal N({100 \over 6}, {500 \over 36})\)
- \(P(X<16) \doteq F(16) = 0.429\), kde \(F\) je kumulatívna distribučná funkcia normálneho rozloženia \(\mathcal N({100 \over 6}, {500 \over 36})\)
- \(P(X<16) = P(X \leq 15) \doteq F(15) = 0.327\)
Oprava na spojitosť: \(P(X<16) = P(X \leq 15.5) \doteq F(15.5) = 0.377\)
Podobne vieme spočítať \(P(X=15) = P(14.5 \leq X \leq 15.5) \doteq F(15.5) - F(14.5) = 0.097\)
Pre diskrétne rozdelenia \(P(X≤x)=P(X<x+1)\). Ak platia podmienky Moivre-Laplaceovej CLV, dá sa vyššie uvedené aproximovať pomocou \(P(Y<x+0.5)\)
Cieľom odhadu je určenie neznámeho parametru náhodnej veličiny \(X\) na základe informácie obsiahnutej vo výberovom súbore (realizácií náhodnej veličiny, datasete). Zaujíma nás predovšetkým hodnota a presnosť odhadu.
Nestranný odhad (unbiased estimator) parametru \(θ\) je odhad, jehož střední hodnota je rovna θ a to pro každou hodnotu, které může tento parametr ze své definice nabývat. Nestrannost odhadu je celkem logickým omezením, které nám říká, že tento odhad má vzhledem ke střední hodnotě nulové vychýlení.
Nejlepší nestranný odhad má ze všech nestranných odhadů nejmenší rozptyl (variabilitu).
Príklad
nestranného odhadu: výběrový průměr jako odhad střední hodnoty (parametru \(μ\)) normálního rozdělení.
Konzistentný odhad
Parameter odhadujeme pomocou jednej hodnoty, ktorá sa snaží hodnotu parametru aproximovať.
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Parameter odhadujeme pomocou intervalu, ktorý daný parameter s veľkou pravdepodobnosťou obsahuje. Dĺžka intervalu vypovedá o presnosti odhadu.
Interval spolehlivosti (konfidenční interval) pro parametr \(θ\) se spolehlivostí \(1−α\), kde \(α∈[0,1]\), je dvojice statistik \((T_d(X),T_h(X))\) taková, že
\[ P(T_d(X) ≤ θ ≤ T_h(X)) = 1−α\]
- Intervalový odhad je konkrétní realizace intervalu spolehlivosti.
- Koeficient \(α\) nazýváme hladinou významnosti.
- Pro oboustranný intervalový odhad platí \(P(θ≤T_d(X))=P(θ≥T_h(X))=α2\)
- Pro levostranný (dolní) intervalový odhad platí \(P(T_d(X)≤θ)=1−α\)
- Pro pravostranný (horní) intervalový odhad platí \(P(θ≤T_h(X))=1−α\)
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Tvorba intervalového odhadu
Príklad: intervalový odhad střední hodnoty \(μ\) normálního rozdělení s neznámým rozptylem se spolehlivostí \(0.95\). Máme vzorek velikosti \(n\) s výběrovým průměrem \(\overline X\) a výběrovým rozptylem \(S^2\).
\[ P(-t_{\frac α2}(n-1) ≤ \frac {\overline X - μ }S \sqrt n ≤ t_{1−\frac α2}(n-1)) = 0.95\]
Maximum likelihood estimate
Log-likelihood funkcia a likelihood funkcia majú maximum v rovnakom bode, s log-likelihoodom sa lepšie pracuje.
Alternatívne metódy odhadovania parametrov:
Obe metódy sú neparametrické -> MLE využíva informáciu o rozdelení pravdepodobnosti a je most efficient estimator.
Nevýhody: zložitejší výpočet, treba riešiť predpoklady o rozdelení (v prípade potreby sa dá použiť CLV).
Cieľom testovania hypotéz je overiť, či dáta nepopierajú predpoklad (hypotézu).
Nulová hypotéza \(H_0\)
Alternatívna hypotéza \(H_1\)
Alternatívna hypotéza je to, čo nás v skutočnosti zaujíma.
\(p\)-value je
Chyba 1. typu nastane, keď zamietneme \(H_0\) aj napriek tomu, že v skutočnosti platí.
Chyba 2. typu nastane, keď nezamietneme \(H_0\) aj napriek tomu, že v skutočnosti neplatí.
\(H_0\) platí | \(H_1\) platí | |
---|---|---|
zamietame \(H_0\) |
Image Not Showing
Possible Reasons
|
Image Not Showing
Possible Reasons
|
nezamietame \(H_0\) |
Image Not Showing
Possible Reasons
|
Image Not Showing
Possible Reasons
|
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
ANOVA (ANalysis Of VAriance) je parametrickým testem testujícím zda na hodnotu náhodné veličiny má statisticky významný vliv hodnota některého znaku, který se u náhodné veličiny dá pozorovat.
Motivací pro neparametrické testy je fakt, že pro parametrické testy je třeba splnit podmínky (normalita, homogenita, …). Nevýhodou neparametrických je však slabší test (tedy zamítnutí \(H_0\) je méně pravděpodobné).
Nezávislost lze chápat jako zvláštní druh podmíněné nezávislosti, protože na pravděpodobnost lze pohlížet jako na zvláštní případ podmíněné pravděpodobnosti, pokud ji nepodmiňujeme žádným jevem.
Pro statistické testování podmíněné nezávislosti se používají chí-kvadrát testy a testy parciálních korelací.
Pro jevy je podmíněná nezávislost definována takto: Jevy \(A\) a \(B\) jsou podmíněně nezávislé vzhledem k jevu \(C\), když \({\displaystyle \mathrm {P} (A\cap B\mid C)=\mathrm {P} (A\mid C)\cdot \mathrm {P} (B\mid C)}\).
Pro náhodné veličiny je definice podobná. Neformálně řečeno jsou dvě náhodné veličiny \(X\) a \(Y\) podmíněně nezávislé vzhledem k \(Z\), pokud platí, že jakmile je známa hodnota \(Z\)$, tak \(Y\) už nepřidá žádné další informace o \(X\) . Například dvě měření \(X\) a \(Y\) stejné hodnoty \(Z\) nejsou nezávislé, ale jsou podmíněně nezávislé vzhledem k \(Z\) (pokud chyby v obou měřeních nejsou nějakým způsobem spojeny).
Formální definice podmíněné nezávislosti je založena na myšlence podmíněného rozdělení Pokud \(X\), \(Y\) a \(Z\) jsou diskrétní náhodné veličiny, pak definujeme \(X\) a \(Y\) jako podmíněně nezávislé vzhledem k \(Z\), pokud \({\displaystyle \mathrm {P} (X\leq x,Y\leq y\;|\;Z=z)=\mathrm {P} (X\leq x\;|\;Z=z)\cdot \mathrm {P} (Y\leq y\;|\;Z=z)}\)
pro všechny \(x\), \(y\) a \(z\) takové, že \({\displaystyle \mathrm {P} (Z=z)>0}\). Dále pokud jsou náhodné proměnné spojité a mají společnou funkci hustoty pravděpodobnosti \({\displaystyle f_{XYZ}(x,y,z)}\), pak \(X\) a \(Y\) jsou podmíněně nezávislé vzhledem k \(Z\), pokud \({\displaystyle f_{XY|Z}(x,y|z)=f_{X|Z}(x|z)\cdot f_{Y|Z}(y|z)}\)
pro všechna reálná čísla \(x\), \(y\) a \(z\) taková, že \({\displaystyle f_{Z}(z)>0}\).
Je-li diskrétní \(X\) a \(Y\) jsou podmíněně nezávislé vzhledem k \(Z\), pak \({\displaystyle \mathrm {P} (X=x|Y=y,Z=z)=\mathrm {P} (X=x|Z=z)}\)
pro všechny \(x\), \(y\) a \(z\) při podmínce \({\displaystyle \mathrm {P} (Z=z)>0}\). To znamená, že rozdělení \(X\) podmíněné $Yč a \(Z\) je stejné jako rozdělení podmíněné jen samotným \(Z\). Podobná rovnice platí pro podmíněné funkce hustoty pravděpodobnosti v spojitém případě.
Často chceme prozkoumat vztah mezi dvěma veličinami, kde jedna z nich, tzv. nezávisle proměnná x, má ovlivňovat druhou, tzv. závisle proměnnou Y. Předpokládá se, že obě veličiny jsou spojité. Prvním krokem ve zkoumání by mělo být zakreslení dat do bodového grafu, tzv. korelačního pole a ověření toho, zda mezi veličinami skutečně existuje předpokládaná závislost, tzv. regrese.
Výsledky této části regresní analýzy jsou často na výstupu z počítače prezentovány ve formě tabulky analýzy rozptylu.
Nejjednodušší formou regrese je jednoduchá lineární regrese, která předpokládá lineární závislost mezi dvěmi veličinami.
Rovnici regresní přímky zapisujeme ve tvaru: \(Y_i = β_0 + β_1 ⋅ x_i + e_i\)
Podmínky lineárního regresního modelu:
Celkový F-test testuje nulovou hypotézu ve tvaru
\(H_0 = \beta_1 = \beta_2 = ... = \beta_k = 0\)
proti alternativě \(H_1:non \ H_2\)
Testujeme tedy, zda hodnota vysvětlované proměnné závisí na lineární kombinaci vysvětlujících proměnných. Pokud bychom nulovou hypotézu nezamítli, znamenalo by to, že množina vysvětlujících proměnných je zvolena zcela špatně a museli bychom najít jinou, lepší skladbu těchto proměnných. Je třeba poznamenat, že nezamítnutí nulové hypotézy je jev velmi ojedinělý.
Uvedený typ testu je pouze speciálním případem obecného F-testu, který umožňuje testovat nulovost libovolné podmnožiny parametrů z vektoru (\(\beta_1, \beta_2 , ... , \beta_k\)).
Testová statistika pro tento test má F-rozdělení s \(k\) a \(n-k-1\) stupni volnosti a má tvar \(F = {n-k-1 \over k }{S_y^2 \over S_e^2}\), kde ve jmenovateli je tzv. součet čtverců modelu, definovaný jako \(S_y^2 = \sum_{i=1}^n (\overline Y_i - \hat Y)^2\) a v čitateli je reziduální součet čtverců.
Dílčí t-testy jsou testy o hodnotách jednotlivých parametrů regresní funkce a umožňují nám testovat oprávněnost setrvání vysvětlující proměnné v regresním modelu. Testujeme (postupně pro jednotlivá i) nulovou hypotézu ve tvaru
\(H_0: β_i=0\) pro \(i=0,1,…,k\)
proti alternativě
\(H_0: β_i ≠ 0\) pro \(i=0,1,…,k\)
Pokud se ukáže, že pro konkrétní \(i\) nelze zamítnout nulovou hypotézu, je třeba zvážit setrvání příslušné vysvětlující proměnné v modelu. Pokud by se totiž parametr u příslušné proměnné neodlišoval významně od nuly, pak taková proměnná do modelu nic nového nepřináší a je v něm tudíž zbytečně. „Nadbytečnost“ proměnné v modelu by se však měla prokázat i podle jiných kritérií. Dále je však třeba poznamenat, že z hlediska kvality výsledných odhadů prováděných na základě regresního modelu je horší variantou případ, kdy proměnnou, která do modelu patří, chybně vyřadíme (testování hypotéz - chyba II. druhu) než případ, kdy proměnná do modelu nepatří a my ji tam chybně ponecháme (chyba I. druhu). Přitom je třeba si uvědomit, že pod kontrolou máme pouze pravděpodobnost chyby I. druhu, nikoliv však již pravděpodobnost chyby II. druhu.
Závěrem je třeba poznamenat, že vyřazení (či nové zařazení) proměnné do modelu znamená spustit celý proces tvorby modelu od začátku a tedy znamená to i nový odhad regresních parametrů.
Testová statistika pro tento test má Studentovo \(t-\) rozdělení s \(n-p\) stupni volnosti, kde \(p=k+1\) a má tvar \(T_i = {b_i \over \sqrt{s^2 v_{ii}}}\), kde \(s^2\) je nestranným odhadem rozptylu náhodné složky a \(v_{ii}\) jsou prvky matice \((X'X)^{-1}\).
Klasický postup by tedy vypadal tak, že spočítáme testovou statistiku, porovnáme její hodnotu s příslušnými kvantily a na základě tohoto srovnání vyslovíme závěr.