FI MUNI Vizualni info statnice 2022
      • Sharing URL Link copied
      • /edit
      • View mode
        • Edit mode
        • View mode
        • Book mode
        • Slide mode
        Edit mode View mode Book mode Slide mode
      • Customize slides
      • Note Permission
      • Read
        • Owners
        • Signed-in users
        • Everyone
        Owners Signed-in users Everyone
      • Write
        • Owners
        • Signed-in users
        • Everyone
        Owners Signed-in users Everyone
      • Engagement control Commenting, Suggest edit, Emoji Reply
      • Invitee
    • Publish Note

      Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

      Your note will be visible on your profile and discoverable by anyone.
      Your note is now live.
      This note is visible on your profile and discoverable online.
      Everyone on the web can find and read all notes of this public team.
      See published notes
      Unpublish note
      Please check the box to agree to the Community Guidelines.
      View profile
    • Commenting
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Suggest edit
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
    • Emoji Reply
    • Enable
    • Versions and GitHub Sync
    • Note settings
    • Engagement control
    • Transfer ownership
    • Delete this note
    • Insert from template
    • Import from
      • Dropbox
      • Google Drive
      • Gist
      • Clipboard
    • Export to
      • Dropbox
      • Google Drive
      • Gist
    • Download
      • Markdown
      • HTML
      • Raw HTML
Menu Note settings Sharing URL Help
Menu
Options
Versions and GitHub Sync Engagement control Transfer ownership Delete this note
Import from
Dropbox Google Drive Gist Clipboard
Export to
Dropbox Google Drive Gist
Download
Markdown HTML Raw HTML
Back
Sharing URL Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Customize slides
Note Permission
Read
Owners
  • Owners
  • Signed-in users
  • Everyone
Owners Signed-in users Everyone
Write
Owners
  • Owners
  • Signed-in users
  • Everyone
Owners Signed-in users Everyone
Engagement control Commenting, Suggest edit, Emoji Reply
Invitee
Publish Note

Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

Your note will be visible on your profile and discoverable by anyone.
Your note is now live.
This note is visible on your profile and discoverable online.
Everyone on the web can find and read all notes of this public team.
See published notes
Unpublish note
Please check the box to agree to the Community Guidelines.
View profile
Engagement control
Commenting
Permission
Disabled Forbidden Owners Signed-in users Everyone
Enable
Permission
  • Forbidden
  • Owners
  • Signed-in users
  • Everyone
Suggest edit
Permission
Disabled Forbidden Owners Signed-in users Everyone
Enable
Permission
  • Forbidden
  • Owners
  • Signed-in users
Emoji Reply
Enable
Import from Dropbox Google Drive Gist Clipboard
   owned this note    owned this note      
Published Linked with GitHub
Subscribed
  • Any changes
    Be notified of any changes
  • Mention me
    Be notified of mention me
  • Unsubscribe
Subscribe
# 3. Statistika (100%) ###### tags: `matika`, `mv013` :::warning * Diskrétní a spojité náhodné veličiny (NV), základní rozložení. Číselné charakteristiky NV. * Centrální limitní věta. * Bodové odhady, intervaly spolehlivosti, testování statistických hypotéz, hladina významnosti. * Základní parametrické a neparametrické testy, ANOVA, testy nezávislosti NV. * Lineární regrese, celkový F-test, dílčí t-testy. ::: ## Náhodné veličiny ### Diskrétna náhodná veličina :::success Náhodná veličina je **diskrétna**, ak sa prvky výberového priestoru $Ω$ zobrazia na os reálnych čísel ako izolované body, označené $x_1, x_2, . . . , x_i,$ pričom každý z týchto bodov má nenulovú pravdepodobnosť. Pravdepodobnosť, že diskrétna náhodná veličina $X$ bude mať po vykonaní náhodného pokusu hodnotu $x,$ značíme $P(X = x)$ alebo $P(x)$. Výsledkom jedného náhodného pokusu bude, že náhodná veličina bude mať práve jednu hodnotu. **Súčet pravdepodobností všetkých možných hodnôt $x$ diskrétnej náhodnej veličiny $X$ je rovný 1**. $$\sum_x P(x) = 1$$ ::: :::info Diskrétnou náhodnou veličinou je teda všetko, čo môže nadobudnúť len jednotlivé hodnoty z konečného alebo nekonečného diskrétneho intervalu, tzn. môže sa zmeniť len po skokoch. ::: >[color=#7D2FAA] **Príklad:** pravdepodobnosť hodu kockou – kocka vie nadobudnúť len hodnoty od 1 po 6. :::success Rozdelenie pravdepodobnosti diskrétnej náhodnej veličina sa vyjadrí tak, že sa určí pravdepodobnosť $P(x)$ pre všetky $x$ z definičného oboru veličiny $X$. Pravdepodobnosti týchto hodnôt sú vyjadrené funkciou $P(x)$, ktorá sa nazýva **pravdepodobnostnou funkciou** Platí, že vo výberovom priestore **majú prvky súčet svojich pravdepodobností rovný 1**. ::: >[color=#7D2FAA] Hodnoty pravdepodobnostnej funckie sa často vyjadrujú tabuľkou. **Príklad:** | $x$ | $P(x)$ | | ----------------- |:----------------------- | | $x_1$ | 0.2 | | $x_2$ | 0.3 | | $x_3$ | 0.5 | > [color=#3b75c6] Pravdepodobnostnú funkciu vieme **využiť k výpočtu pravdepodobnosti**. Napríklad pravdepodobnosť, že náhodná veličina $X$ leží medzi hodnotami $x_1$ a $x_2$ môže byť vyjadrená ako $P(x1≤X≤x2)= \sum_{x=x_1}^{x_2} P(x)$, čo znamená, že **sčítame pravdepodobnosti nadobudnutia hodnôt v danom rozsahu.** **Rozdelenie početnosti diskrétnej náhodnej veličiny:** ![](https://i.imgur.com/t6lorfD.png) :::success Pomocou pravdepodobnostnej funkcie je možné zaviesť **distribučnú funkciu** vzťahom $$F(x) = P(X<x) $$ Distribučná funkcia je **neklesajúca** a **spojitá sprava**. Hodnoty distribučnej funkcie ležia v rozsahu $0 ≤ F(X) ≤ 1$. Pre diskrétnu náhodnú veličinu $X$ je možné pre ľubovoľné reálne číslo $x$ vyjadriť distribučnú funkciou vzťahom $$F(x) = \sum_{t≤x} P(t)$$ ::: :::success **Číselné charakteristiky diskrétnej náhodnej veličiny** Pre popis diskrétnych náhodných veličín sa používajú rôzne charakteristiky. Jednou z najdôležitejších je **stredná hodnota** označená ako $E(X)$, ktorá je definovaná nasledujúcim vzorcom $$E(X) = \sum_{x_k} x_kP(X = x_k)$$ **Rozptyl** náhodnej veličiny sa znači $D(X)$ a **vyjadruje veľkosť odchyliek hodnôt náhodnej veličiny od jej strednej hodnoty**. Vyjadruje sa ako $$D(X) = \sum_{x_k} x_k^2P(X = x_k) - [E(X)]^2$$ **Smerodajná odchýlka**, označená ako $σ(X)$, je definovaná ako odmocnina z rozptylu $$σ(X) = \sqrt{D(X)}$$ ::: Stredná hodnota predstavuje číslo, **okolo ktorého kolísajú výberové priemery** vypočítané zo série pozorovaných hodnôt náhodnej veličiny. Vypočíta sa ako súčet vynásobenia hodnoty náhodnej veličiny s jej pravdepodobnosťou. ### Spojitá náhodná veličina :::success Náhodná veličina je **spojitá**, ak jej hodnoty priradené prvom výberového priestoru $Ω$ tvorí interval na osi reálnych čísel, pričom každý bod tohto intervalu má nenulovú pravdepodobnosť. ::: **Spojitou náhodnou veličinou** je teda všetko, čo nadobúda spojité hodnoty. Nadobúda hodnoty z konečného alebo nekonečného intervalu, tzn. môže sa meniť spojite **bez skokov**. >[color=#7D2FAA] **Príklad:** doba čakania na šalinu, analógový signál :::info Hustota pravdepodobnosti popisuje správanie náhodnej veličiny. Hustota predstavuje ekvivalent pravdepodobnostnej funkcie diskrétnej náhodnej veličiny, a teda platí $$\int_{-∞}^∞ f(x)dx = 1$$ Pravdepodobnosť, že spojitá náhodná veličina nadobudne hodnoty z intervalu $⟨x1;x2⟩$ môže byť vypočítaná ako $$P(x_1 ≤ X ≤ x_2) = \int_{x_1}^{x_2} f(t)dt$$ ::: Plocha pod krivkou rozdelenia sa rovná jednej, pretože pokrýva všetky hodnoty, ktoré môže náhodná veličina nadobudnúť. :::success **Distribučná funkcia** spojitej náhodnej veličiny $X$ je nezáporná funkcia $$F(x) = \int_{-∞}^x f(t)dt$$ Distribučnú funkciu $F(x)$ je možné vyjadriť ako **plochu pod krivkou pravdepodobnostného rozdelenia**. Pravdepodobnosť, že spojitá náhodná veličina nadobudne hodnoty z intervalu $⟨x1;x2⟩$ môže byť zároveň vyjadrená aj pomocou distribučnej funkcie, a to nasledujúcim spôsobom $$P(x_1 ≤ X ≤ x_2) = F(x_2) - F(x_1) $$ ::: Od pravdepodobnosti, že náhodná veličina $X$ nadobudne hodnoty $x_2$ a menšie odčítame pravdepodobnosť, že nadobude hodnoty $x_1$ a menšie. Ostane nám teda plocha medzi bodmi $x_2$ a $x_1$, ktorá značí pravdepodobnosť, že $X$ nadobudne hodnoty v tomto intervale. >Vyznačenie hodnoty distribučnej funkcie $F(x_i)$: ![](https://i.imgur.com/nKhk5M9.png) :::success **Číselné charakteristiky spojitej náhodnej veličiny** K popisu spojitej náhodnej veličiny sa používajú číselné charakteristiky. Najdôležitejšou z nich je **stredná hodnota** (očakávaná hodnota), označovaná ako $E(X)$, ekvivalentne aj $EX$, definovaná ako $$E(X) = \int_{-∞}^∞ xf(x)dx$$ Ďalšou charakteristikou je **rozptyl**, označovaný ako $D(X)$ alebo aj $var(X)$, ktorý je možné vyjadriť ako $$D(X) = \int_{-∞}^∞ x^2f(x)dx - [E(X)]^2$$ K popisu hodnôt rozptýlenia spojitej náhodnej veličiny sa pouźíva častejšie **smerodajná odchýlka**, označená ako $σ(X)$. Je definovaná ako $$σ(X) = \sqrt{D(X)}$$ ::: Stredná hodnota u spojitej náhodnej veličiny má rovnaký význam ako pri diskrétnej. --- ## Centrálna limitná veta (CLV, Central Limit Theorem) **Centrální limitní věta** je klíčové matematické tvrzení, které popisuje pravděpodobnostní chování **výběrového průměru pro velké vzorky** a umožňuje tak sestrojení intervalových odhadů, a to nejen pro normálně rozdělené náhodné veličiny. :::success **Lindeberg-Lévy CLV** Mějme posloupnost $X_1,…,X_n$ nezávislých, stejně rozdělených náhodných veličin (a.k.a. náhodný výběr), které mají konečnou střední hodnotu $μ$ a rozptyl $σ^2>0$. Pak asymptoticky pro $n→∞$ platí: $$ (1) \overline X = \frac 1n \sum_{i=1}^n X_i ≈ N(μ,\frac {σ^2}n) $$ $$ (2) \sqrt {n} \frac {\overline X - μ}{\sqrt {σ^2}} ≈ N(0,1) $$ $$ (3) \frac {\sum_{i=1}^n X_i - nμ}{\sqrt {nσ^2}} ≈ N(0,1) $$ ::: Komentár: bez ohľadu na to, z akého rozdelenia máme náhodné výbery, výberový priemer bude mať (pre dostatočne veľké $n$) asymptoticky normálne rozdelenie s určitými parametrami (viď $(1)$ vyššie). Po vhodnej normalizácii výberového priemeru dostaneme asymptoticky štandardné normálne rozdelenie $N(0,1)$ (viď $(2)$ a $(3)$ vyššie). :bulb: Centrální limitní věta funguje dokonce i tehdy, když rozdělení původní náhodné veličiny není spojité, ale **diskrétní**. :::info **Zjednodušená interpretace CLV**: pokud je rozdělení pravděpodobnosti náhodné veličiny $X$ **normální**, pak je i rozdělení průměru pozorovaných hodnot **normální** (a to i pro $n=1$). Pokud však rozdělení pravděpodobnosti náhodné veličiny $X$ normální není, pak je rozdělení průměru pozorovaných hodnot **přibližně normální**, když $n$ **je dostatečně velké** (matematicky řečeno, pro n jdoucí do nekonečna). ::: **Minimální velikost souboru** pro výpočet průměru (Lindeberg-Lévy): * $n≥30$ v případě rozdělení pravděpodobnosti podobných normálnímu; * $n≥100$ pro rozdělení, která nejsou podobná normálnímu *(názory na minimálni hodnoty $n$ se liší)* > [color=#449750] Teória a zároveň **princíp použitia CLV** pre výpočet pravdepodobnosti: ![](https://i.imgur.com/PTBn0OY.png) > [color=#449750] ![](https://i.imgur.com/a02yu4W.png) >[color=#7D2FAA] **Príklad** výpočtu s použitím CLV > Nech $X$ je náhodná premenná popisujúca číslo 6 keď hodíme kocku 100krát. > * $X$ má binomické rozloženie $Binomial(100, 1/6)$ > >Podľa CLV - $X$ má asymptoticky normálne rozloženie $\mathcal N({100 \over 6}, {500 \over 36})$ > * $P(X<16) \doteq F(16) = 0.429$, kde $F$ je kumulatívna distribučná funkcia normálneho rozloženia $\mathcal N({100 \over 6}, {500 \over 36})$ > * $P(X<16) = P(X \leq 15) \doteq F(15) = 0.327$ > > Oprava na spojitosť: $P(X<16) = P(X \leq 15.5) \doteq F(15.5) = 0.377$ > Podobne vieme spočítať $P(X=15) = P(14.5 \leq X \leq 15.5) \doteq F(15.5) - F(14.5) = 0.097$ > :::info :bulb: *Continuity correction* (oprava na spojitosť) sa používa pri aproximácii diskrétneho rozdelenia spojitým. Pre diskrétne rozdelenia $P(X≤x)=P(X<x+1)$. Ak platia podmienky Moivre-Laplaceovej CLV, dá sa vyššie uvedené aproximovať pomocou $P(Y<x+0.5)$ ::: ## Bodové a intervalové odhady, princíp vieryhodnosti Cieľom odhadu je určenie neznámeho parametru náhodnej veličiny $X$ na základe informácie obsiahnutej vo výberovom súbore (realizácií náhodnej veličiny, datasete). Zaujíma nás predovšetkým hodnota a presnosť odhadu. :::info **Nestranný odhad** (unbiased estimator) parametru $θ$ je odhad, jehož střední hodnota je rovna θ a to pro každou hodnotu, které může tento parametr ze své definice nabývat. Nestrannost odhadu je celkem logickým omezením, které nám říká, že tento odhad má vzhledem ke střední hodnotě nulové vychýlení. **Nejlepší nestranný odhad** má ze všech nestranných odhadů nejmenší rozptyl (variabilitu). ::: >[color=#7D2FAA] **Príklad nestranného odhadu**: výběrový průměr jako odhad střední hodnoty (parametru $μ$) normálního rozdělení. :::info **Konzistentný odhad** ::: ### Bodový odhad (point estimate) Parameter odhadujeme pomocou **jednej hodnoty**, ktorá sa snaží hodnotu parametru **aproximovať**. > [color=#449750] ![TOC](https://i.imgur.com/sXbqNF9.png) ![TOC](https://i.imgur.com/SZjHg1K.png) ### Intervalový odhad (range estimate) Parameter odhadujeme pomocou **intervalu**, ktorý daný parameter s veľkou pravdepodobnosťou obsahuje. Dĺžka intervalu vypovedá o presnosti odhadu. :::success Interval spolehlivosti (konfidenční interval) pro parametr $θ$ se spolehlivostí $1−α$, kde $α∈[0,1]$, je dvojice statistik $(T_d(X),T_h(X))$ taková, že $$ P(T_d(X) ≤ θ ≤ T_h(X)) = 1−α$$ ::: > [color=#449750] >* Intervalový odhad je konkrétní realizace intervalu spolehlivosti. >* Koeficient $α$ nazýváme hladinou významnosti. >* Pro oboustranný intervalový odhad platí $P(θ≤T_d(X))=P(θ≥T_h(X))=α2$ >* Pro levostranný (dolní) intervalový odhad platí $P(T_d(X)≤θ)=1−α$ >* Pro pravostranný (horní) intervalový odhad platí $P(θ≤T_h(X))=1−α$ >![TOC](https://i.imgur.com/chkZeae.png) **Tvorba intervalového odhadu** * Zvolíme vhodnou výběrovou charakteristiku $T(X)$ jejíž rozdělení závislé na $θ$ známe. * Určíme $α$ a kvantily $t_{\frac α2}$ a $t_{1−\frac α2}$ z $T(X)$ * Stanovíme meze pro $θ$ z podmínky $t_{\frac α2}≤T(X)≤t_{1−\frac α2}$ * Profit! >[color=#7D2FAA] **Príklad:** intervalový odhad střední hodnoty $μ$ normálního rozdělení s neznámým rozptylem se spolehlivostí $0.95$. Máme vzorek velikosti $n$ s výběrovým průměrem $\overline X$ a výběrovým rozptylem $S^2$. * Zvolime statistiku $T(X) = \frac {\overline X - μ }S \sqrt n$ * Z vlastností Studentova rozdělení víme: $T(X) ∼ t(n−1)$ * Dosadime: $$ P(t_{\frac α2}(n-1) ≤ \frac {\overline X - μ }S \sqrt n ≤ t_{1−\frac α2}(n-1)) = 0.95$$ * Využijeme $$t_{\frac α2}(n-1) = -{t_{1−\frac α2}(n-1)} $$, tedy: $$ P(-t_{\frac α2}(n-1) ≤ \frac {\overline X - μ }S \sqrt n ≤ t_{1−\frac α2}(n-1)) = 0.95$$ * Vytáhneme vše z prostředku: $$ P(\overline X - \frac S{\sqrt n}t_{\frac α2}(n-1) ≤ μ ≤ \overline X + \frac S{\sqrt n} t_{1−\frac α2}(n-1)) = 0.95$$ * Vyčíslíme. ### Princíp vieryhodnosti (likelihood principle) **Maximum likelihood estimate** Log-likelihood funkcia a likelihood funkcia majú maximum v rovnakom bode, s log-likelihoodom sa lepšie pracuje. Alternatívne metódy odhadovania parametrov: * method of moments * ordinary least-squares method Obe metódy sú neparametrické -> MLE využíva informáciu o rozdelení pravdepodobnosti a je most efficient estimator. Nevýhody: zložitejší výpočet, treba riešiť predpoklady o rozdelení (v prípade potreby sa dá použiť CLV). ### Štatistická inferencia – testovanie hypotéz Cieľom testovania hypotéz je overiť, či dáta **nepopierajú predpoklad** (hypotézu). Nulová hypotéza $H_0$ Alternatívna hypotéza $H_1$ Alternatívna hypotéza je to, čo nás v skutočnosti zaujíma. $p$-value je #### Chyby v testovaní hypotéz :::info Chyba 1. typu nastane, keď **zamietneme** $H_0$ aj napriek tomu, že v skutočnosti **platí**. Chyba 2. typu nastane, keď **nezamietneme** $H_0$ aj napriek tomu, že v skutočnosti **neplatí**. ::: | | $H_0$ **platí** | $H_1$ **platí** | | ----------------- |:----------------------- |:----------------------- | | zamietame $H_0$ | :x: chyba 1. typu | :heavy_check_mark: OK | | nezamietame $H_0$| :heavy_check_mark: OK | :x: chyba 2. typu | > [color=#449750] ![TOC](https://i.imgur.com/RaqjtI7.png) --- ## Testy ### Parametrické testy #### ANOVA **ANOVA** (**AN**alysis **O**f **VA**riance) je **parametrickým** testem testujícím zda na hodnotu náhodné veličiny má statisticky významný vliv hodnota některého znaku, který se u náhodné veličiny dá pozorovat. ### Neparametrické testy Motivací pro neparametrické testy je fakt, že pro parametrické testy je třeba splnit podmínky (normalita, homogenita, …). Nevýhodou neparametrických je však slabší test (tedy zamítnutí $H_0$ je méně pravděpodobné). ### Testy nezávislosti NV Nezávislost lze chápat jako zvláštní druh podmíněné nezávislosti, protože na pravděpodobnost lze pohlížet jako na zvláštní případ podmíněné pravděpodobnosti, pokud ji nepodmiňujeme žádným jevem. Pro statistické testování podmíněné nezávislosti se používají chí-kvadrát testy a testy parciálních korelací. Pro jevy je podmíněná nezávislost definována takto: Jevy $A$ a $B$ jsou podmíněně nezávislé vzhledem k jevu $C$, když ${\displaystyle \mathrm {P} (A\cap B\mid C)=\mathrm {P} (A\mid C)\cdot \mathrm {P} (B\mid C)}$. Pro náhodné veličiny je definice podobná. Neformálně řečeno jsou dvě náhodné veličiny $X$ a $Y$ podmíněně nezávislé vzhledem k $Z$, pokud platí, že jakmile je známa hodnota $Z$$, tak $Y$ už nepřidá žádné další informace o $X$ . Například dvě měření $X$ a $Y$ stejné hodnoty $Z$ nejsou nezávislé, ale jsou podmíněně nezávislé vzhledem k $Z$ (pokud chyby v obou měřeních nejsou nějakým způsobem spojeny). Formální definice podmíněné nezávislosti je založena na myšlence podmíněného rozdělení Pokud $X$, $Y$ a $Z$ jsou diskrétní náhodné veličiny, pak definujeme $X$ a $Y$ jako podmíněně nezávislé vzhledem k $Z$, pokud ${\displaystyle \mathrm {P} (X\leq x,Y\leq y\;|\;Z=z)=\mathrm {P} (X\leq x\;|\;Z=z)\cdot \mathrm {P} (Y\leq y\;|\;Z=z)}$ pro všechny $x$, $y$ a $z$ takové, že ${\displaystyle \mathrm {P} (Z=z)>0}$. Dále pokud jsou náhodné proměnné spojité a mají společnou funkci hustoty pravděpodobnosti ${\displaystyle f_{XYZ}(x,y,z)}$, pak $X$ a $Y$ jsou podmíněně nezávislé vzhledem k $Z$, pokud ${\displaystyle f_{XY|Z}(x,y|z)=f_{X|Z}(x|z)\cdot f_{Y|Z}(y|z)}$ pro všechna reálná čísla $x$, $y$ a $z$ taková, že ${\displaystyle f_{Z}(z)>0}$. Je-li diskrétní $X$ a $Y$ jsou podmíněně nezávislé vzhledem k $Z$, pak ${\displaystyle \mathrm {P} (X=x|Y=y,Z=z)=\mathrm {P} (X=x|Z=z)}$ pro všechny $x$, $y$ a $z$ při podmínce ${\displaystyle \mathrm {P} (Z=z)>0}$. To znamená, že rozdělení $X$ podmíněné $Yč a $Z$ je stejné jako rozdělení podmíněné jen samotným $Z$. Podobná rovnice platí pro podmíněné funkce hustoty pravděpodobnosti v spojitém případě. --- ## Lineárna regrese Často chceme prozkoumat vztah mezi dvěma veličinami, kde jedna z nich, tzv. nezávisle proměnná x, má ovlivňovat druhou, tzv. závisle proměnnou Y. Předpokládá se, že obě veličiny jsou spojité. Prvním krokem ve zkoumání by mělo být zakreslení dat do bodového grafu, tzv. korelačního pole a ověření toho, zda mezi veličinami skutečně existuje předpokládaná závislost, tzv. regrese. Výsledky této části regresní analýzy jsou často na výstupu z počítače prezentovány ve formě tabulky analýzy rozptylu. Nejjednodušší formou regrese je jednoduchá lineární regrese, která předpokládá lineární závislost mezi dvěmi veličinami. Rovnici regresní přímky zapisujeme ve tvaru: $Y_i = β_0 + β_1 ⋅ x_i + e_i$ Podmínky lineárního regresního modelu: 1. $E(e_i )= 0$ pro každé $i=1,2,...,n$ Střední hodnota náhodné složky je nulová. 2. $D(e_i)=σ^2$ prokaždé $i=1,2,...,n$ Rozptyl náhodné složky je konstantní. 3. $Cov(e_i ,e_j )= 0$ pro každé $i \ne j$, kde $i, j =1,2,...,n$ Kovariance náhodné složky je nulová. 4. Normalita: Náhodné složky $e_i$ mají pro $i = 1,2,..., n$ normální rozdělení. 5. Regresní parametry $\beta_i$ mohou nabývat libovolných hodnot. 6. Regresní model je lineární v parametrech. ### Celkový F-test Celkový F-test testuje nulovou hypotézu ve tvaru $H_0 = \beta_1 = \beta_2 = ... = \beta_k = 0$ proti alternativě $H_1:non \ H_2$ Testujeme tedy, zda hodnota vysvětlované proměnné závisí na lineární kombinaci vysvětlujících proměnných. Pokud bychom nulovou hypotézu nezamítli, znamenalo by to, že množina vysvětlujících proměnných je zvolena zcela špatně a museli bychom najít jinou, lepší skladbu těchto proměnných. Je třeba poznamenat, že nezamítnutí nulové hypotézy je jev velmi ojedinělý. Uvedený typ testu je pouze speciálním případem obecného F-testu, který umožňuje testovat nulovost libovolné podmnožiny parametrů z vektoru ($\beta_1, \beta_2 , ... , \beta_k$). Testová statistika pro tento test má F-rozdělení s $k$ a $n-k-1$ stupni volnosti a má tvar $F = {n-k-1 \over k }{S_y^2 \over S_e^2}$, kde ve jmenovateli je tzv. součet čtverců modelu, definovaný jako $S_y^2 = \sum_{i=1}^n (\overline Y_i - \hat Y)^2$ a v čitateli je reziduální součet čtverců. ### Dílčí t-testy Dílčí t-testy jsou testy o hodnotách jednotlivých parametrů regresní funkce a umožňují nám testovat oprávněnost setrvání vysvětlující proměnné v regresním modelu. Testujeme (postupně pro jednotlivá i) nulovou hypotézu ve tvaru $H_0: β_i=0$ pro $i=0,1,…,k$ proti alternativě $H_0: β_i ≠ 0$ pro $i=0,1,…,k$ Pokud se ukáže, že pro konkrétní $i$ nelze zamítnout nulovou hypotézu, je třeba zvážit setrvání příslušné vysvětlující proměnné v modelu. Pokud by se totiž parametr u příslušné proměnné neodlišoval významně od nuly, pak taková proměnná do modelu nic nového nepřináší a je v něm tudíž zbytečně. „Nadbytečnost“ proměnné v modelu by se však měla prokázat i podle jiných kritérií. Dále je však třeba poznamenat, že z hlediska kvality výsledných odhadů prováděných na základě regresního modelu je horší variantou případ, kdy proměnnou, která do modelu patří, chybně vyřadíme (testování hypotéz - chyba II. druhu) než případ, kdy proměnná do modelu nepatří a my ji tam chybně ponecháme (chyba I. druhu). Přitom je třeba si uvědomit, že pod kontrolou máme pouze pravděpodobnost chyby I. druhu, nikoliv však již pravděpodobnost chyby II. druhu. Závěrem je třeba poznamenat, že vyřazení (či nové zařazení) proměnné do modelu znamená spustit celý proces tvorby modelu od začátku a tedy znamená to i nový odhad regresních parametrů. Testová statistika pro tento test má Studentovo $t-$ rozdělení s $n-p$ stupni volnosti, kde $p=k+1$ a má tvar $T_i = {b_i \over \sqrt{s^2 v_{ii}}}$, kde $s^2$ je nestranným odhadem rozptylu náhodné složky a $v_{ii}$ jsou prvky matice $(X'X)^{-1}$. Klasický postup by tedy vypadal tak, že spočítáme testovou statistiku, porovnáme její hodnotu s příslušnými kvantily a na základě tohoto srovnání vyslovíme závěr.

Import from clipboard

Paste your markdown or webpage here...

Advanced permission required

Your current role can only read. Ask the system administrator to acquire write and comment permission.

This team is disabled

Sorry, this team is disabled. You can't edit this note.

This note is locked

Sorry, only owner can edit this note.

Reach the limit

Sorry, you've reached the max length this note can be.
Please reduce the content or divide it to more notes, thank you!

Import from Gist

Import from Snippet

or

Export to Snippet

Are you sure?

Do you really want to delete this note?
All users will lose their connection.

Create a note from template

Create a note from template

Oops...
This template has been removed or transferred.
Upgrade
All
  • All
  • Team
No template.

Create a template

Upgrade

Delete template

Do you really want to delete this template?
Turn this template into a regular note and keep its content, versions, and comments.

This page need refresh

You have an incompatible client version.
Refresh to update.
New version available!
See releases notes here
Refresh to enjoy new features.
Your user state has changed.
Refresh to load new user state.

Sign in

Forgot password

or

By clicking below, you agree to our terms of service.

Sign in via Facebook Sign in via Twitter Sign in via GitHub Sign in via Dropbox Sign in with Wallet
Wallet ( )
Connect another wallet

New to HackMD? Sign up

Help

  • English
  • 中文
  • Français
  • Deutsch
  • 日本語
  • Español
  • Català
  • Ελληνικά
  • Português
  • italiano
  • Türkçe
  • Русский
  • Nederlands
  • hrvatski jezik
  • język polski
  • Українська
  • हिन्दी
  • svenska
  • Esperanto
  • dansk

Documents

Help & Tutorial

How to use Book mode

Slide Example

API Docs

Edit in VSCode

Install browser extension

Contacts

Feedback

Discord

Send us email

Resources

Releases

Pricing

Blog

Policy

Terms

Privacy

Cheatsheet

Syntax Example Reference
# Header Header 基本排版
- Unordered List
  • Unordered List
1. Ordered List
  1. Ordered List
- [ ] Todo List
  • Todo List
> Blockquote
Blockquote
**Bold font** Bold font
*Italics font* Italics font
~~Strikethrough~~ Strikethrough
19^th^ 19th
H~2~O H2O
++Inserted text++ Inserted text
==Marked text== Marked text
[link text](https:// "title") Link
![image alt](https:// "title") Image
`Code` Code 在筆記中貼入程式碼
```javascript
var i = 0;
```
var i = 0;
:smile: :smile: Emoji list
{%youtube youtube_id %} Externals
$L^aT_eX$ LaTeX
:::info
This is a alert area.
:::

This is a alert area.

Versions and GitHub Sync
Get Full History Access

  • Edit version name
  • Delete

revision author avatar     named on  

More Less

Note content is identical to the latest version.
Compare
    Choose a version
    No search result
    Version not found
Sign in to link this note to GitHub
Learn more
This note is not linked with GitHub
 

Feedback

Submission failed, please try again

Thanks for your support.

On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

Please give us some advice and help us improve HackMD.

 

Thanks for your feedback

Remove version name

Do you want to remove this version name and description?

Transfer ownership

Transfer to
    Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.

      Link with GitHub

      Please authorize HackMD on GitHub
      • Please sign in to GitHub and install the HackMD app on your GitHub repo.
      • HackMD links with GitHub through a GitHub App. You can choose which repo to install our App.
      Learn more  Sign in to GitHub

      Push the note to GitHub Push to GitHub Pull a file from GitHub

        Authorize again
       

      Choose which file to push to

      Select repo
      Refresh Authorize more repos
      Select branch
      Select file
      Select branch
      Choose version(s) to push
      • Save a new version and push
      • Choose from existing versions
      Include title and tags
      Available push count

      Pull from GitHub

       
      File from GitHub
      File from HackMD

      GitHub Link Settings

      File linked

      Linked by
      File path
      Last synced branch
      Available push count

      Danger Zone

      Unlink
      You will no longer receive notification when GitHub file changes after unlink.

      Syncing

      Push failed

      Push successfully