3 Statistika (WIP)

tags: řsss-základ, matika, mv013

Statistika. Popisná statistika (charakteristiky polohy a variability, pořádkové statistiky, statistiky asociace, související grafy). Diskrétní a spojité náhodné veličiny (NV). Náhodný výběr. Parametrické pravděpodobnostní modely (distribuce) NV. Centrální limitní věta. Princip věrohodnosti, bodové a intervalové odhady. Statistická inference - testování hypotéz, hladina významnosti, koeficient spolehlivosti. Testování hypotéz na jednom vzorku, dvou vzorcích, více než dvou vzorcích (včetně jednovýběrových, dvouvýběrových a párových t-testů, ANOVA a post-hoc testů), testů dobré shody. Lineární regresní model. (MV013)


Vzorce a formálne definície.

Vzorce a definície

Voľné definície a vysvetlenia.

Vysvetlenie

Príklad

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Zdroj, ďalšie čítanie

Takto *[MV013] sú označené pojmy, ktoré nie sú v zadaní otázky, no preberali sa na MV013 a môžu sa zísť.


Disclaimer: poznámky sú z veľkej miery prevzaté z materiálov vypracovaných študentami umelej inteligencie a spracovania dát na podzim 2020.


Statistika je vědní obor, který se zabývá sběrem, organizací, analýzou, interpretací a prezentací empirických dat za účelem prohloubení znalostí určité oblasti, obvykle hromadného jevu.

Popisná štatistika

Popisná štatistika (ako počitateľné podstatné meno) je štatistika, ktorá kvantitatívne popisuje alebo sumarizuje vlastnosti nejakej sady dát, zatiaľ čo popisná štatistika (ako nepočitateľný pojem) predstavuje proces používania a analýzy týchto popisných štatistík.

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Popisná štatistika sa od inferečnej štatistiky líši cieľom zhrnúť, resp. popísať vzorku dát namiesto odvodzovania poznatkov o populácii, ktorú reprezentuje daná vzorka.

Typy premenných

  • číselné
  • kategorické
    • nominálne (neexistuje usporiadanie), napr. farba očí, pohlavie,
    • ordinálne (existuje usporiadanie), napr. známka v škole, bodovanie

Má zmysel daná charakteristika pre daný typ premennej?

charakteristika číselná nominálna ordinálna
priemer
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
medián
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
modus
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
kvantil
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
rozptyl
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
smerodajná odchýlka
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Giniho koeficient
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
entropia
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

Charakteristiky polohy

Typická hodnota, ktorá vystihuje danú sadu hodnôt. Niektoré môžu byť vhodnejšie (viac výstižné) než iné.

Aritmetický priemer (mean)
x¯

Súčet hodnôt delený počtom hodnôt.

x¯=1ni=1nxi

  • Ľahko ovplyvniteľný extrémnymi hodnotami, možné riešenia: *[MV013]
    • trimmed mean = priemer po odstránení určitého počtu extrémnych hodnôt (používa sa napr. pri športoch, ktoré sú hodnotené porotou najnižšie a najvyššie skóre sa zruší, výsledok je priemer zostávajúcich hodnôt),

      Príklad: hodnoty 7, 11, 2, 6, 14

      usporiadané 2, 6, 7, 11, 14
      0.2
      -trimmed mean = TODO

    • winsorized mean = priemer po nahradení určitého počtu extrémnych hodnôt menej extrémnymi (najbližšou hodnotou zo sady).

      Príklad: TODO

Medián (median)
x~

Hodnota nachádzajúca sa presne v polovici zoradeného zoznamu hodnôt.

x~=x(n+12) pre nepárne (liché)
n
,
x~=x(n2)+x(n2+1)2
pre párne (sudé)
n
.

  • Ak je počet hodnôt párny (sudý), neexistuje jedna hodnota, ktorá by bola presne v polovici
    počíta sa priemer z dvoch hodnôt.
  • Vhodnejšia charakteristika polohy ako priemer v prípade skewed dát.
  • Image Not Showing Possible Reasons
    • The image file may be corrupted
    • The server hosting the image is unavailable
    • The image path is incorrect
    • The image format is not supported
    Learn More →
    0.5
    -kvantil

Modus (mode)

Hodnota, ktorá sa v sade hodnôt vyskytuje najčastejšie, nemusí byť určená jednoznačne.

  • Image Not Showing Possible Reasons
    • The image file may be corrupted
    • The server hosting the image is unavailable
    • The image path is incorrect
    • The image format is not supported
    Learn More →
    Vhodná charakteristika aj pre kategorické premenné.

Kvantil (quantile)

Hodnota, ktorá je väčšia alebo rovná ako

α100 % hodnôt zo sady.

qα=x(nα)

  • q0.5
    = medián
  • q0.25
    = 1. kvartil (
    Q1
    )
  • q0.75
    = 3. kvartil (
    Q3
    )
  • q0.75q0.25
    = kvartilová odchýlka (
    IQR
    = interquartile range)

Charakteristiky variability

Rozptyl (variance)

Priemer zo súčtu štvorcov (sum of squares).

s2=1n1i=1n(xix¯)2

Smerodajná odchýlka (standard deviation)

Odmocnina z rozptylu.

s=1n1i=1n(xix¯)2

Charakteristiky tvaru *[MV013]

Koeficient šikmosti (skewness) *[MV013]

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

  • Šikmosť
    =0
    značí, že hodnoty náhodnej veličiny sú rovnomerne rozdelené vľavo a vpravo od strednej hodnoty.
  • Šikmosť
    >0
    značí, že vpravo od priemeru sa vyskytujú odľahlejšie hodnoty než vľavo (rozdelenie má tzv. pravý chvost) a väčšina hodnôt sa nachádza blízko vľavo od priemeru.
  • Pre šikmosť
    <0
    platí opak.
  • Symetrické rozdelenia (vrátane normálneho) majú šikmosť
    =0.
  • Pre rozdelenia s kladnou šikmosťou obvykle platí, že modus je menší ako medián a ten je menší ako stredná hodnota (pre zápornú šikmosť naopak).
    Wikipedia

Koeficient špicatosti (kurtosis) *[MV013]

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

  • Špicatosť
    >0
    značí, že väčšina hodnôt náhodnej veličiny leží blízko jej strednej hodnoty a hlavný vplyv na rozptyl majú málo pravdepodobné odľahlhé hodnoty. Krivka hustoty je špicatejšia než pri nomrálnom rozdelení.
  • Špicatosť
    <0
    značí, že rozdelenie je rovnomernejšie a krivka jeho hustoty je viac plochá než pri normálnom rozdelení.
  • Normálne rozdelenie má špicatosť
    =0
    .
  • Špicatosť rozdelenia nezávisí od lineárnej transformácie náhodnej veličiny, je teda napr. rovnaká pre všetky normálne rozdelenia.
    Wikipedie

Poriadkové štatistiky (výberové charakteristiky dané poradím)

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
http://kfe.fjfi.cvut.cz/~limpouch/sigdat/statodn/node5.html
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
http://user.mendelu.cz/drapela/Statisticke_metody/teorie text II.pdf

Pořádková statistika = vzestupně uspořádané prvky souboru

x(1),x(2),,x(n).

:warning: Úprimne netuším, čo sem patrí. Mohli by to byť štatistiky, ktoré sú založené na poradí, tj. napr. medián a kvantil, alebo by to mohli byť nejaké zložitejšie štatistiky (rank statistics?).

Štatistiky asociácie

Štatistiky asociácie sú faktory alebo koeficienty, ktoré kvantifikujú vzťah medzi dvoma alebo viacerými veličinami.

Kovariancia

Nech

x=(x1,,xn)T a
y=(y1,,yn)T
.

Kovariancia

c je definovaná nasledovne:

c=1n1i=1n(xix¯)(yiy¯)

Od každého prvku výberu

x odčítame výberový priemer
x¯
, od každého prvku výberu
y
odčítame výberový priemer
y¯
, rozdiely medzi sebou podľa indexov vynásobíme (
(x1x¯)(y1y¯)
,
(x2x¯)(y2y¯)
atď.), výsledné súčiny sčítame a vydelíme
n1
.

Vzorec predpokladá, že výbery
x
a
y
majú rovnakú veľkosť
n
.

Ak je

c>0, obe premenné sa menia rovnakým smerom (ak rastie jedna, rastie aj druhá a naopak).
Ak je
c<0
, premenné sú nepriamo úmerné.
Ak je
c=0
, premenné sa neovplyvňujú.

Korelácia

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Normalizovaná kovariancia.

Nech

x=(x1,,xn)T a
y=(y1,,yn)T
.

Korelácia

r je definovaná nasledovne:

r=i=1n(xix¯)(yiy¯)i=1n(xix¯)2i=1n(yiy¯)2

Korelácia sa počíta podobne ako kovariancia, ale čitateľ sa delí odmocninou zo súčinu súčtu štvorcov (sum of squares) pre 

x a pre
y
.

Hodnota

r>0.8 znamená silný pozitívny lineárny vzťah,
r<0.8
silný negatívny lineárny vzťah a
r=0
značí, že medzi veličinami neexistuje lineárny vzťah.

Interpretácie korelácie v prírodných vedách:

|ρ|0;0,4) - malá alebo žiadna korelácia
|ρ|0,4;0,6)
- slabá korelácia
|ρ|0,6;0,8)
- stredná korelácia
|ρ|0,8;1)
- silná korelácia

Korelácia predstavuje kovarianciu na škále

1;1.

Matica korelácie (kovariancie)

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
TODO

Scatterplot

Vizualizuje hodnoty dvoch premenných v 2D priestore. Využíva sa na sledovanie vzťahov medzi premennými.
V prípade, že sa scatterplot používa na zobrazenie korelácie medzi premennými, zvykne sa do grafu priložiť krivka, ktorá reprezentuje tento vzťah.

Korelogram

Vizualizuje maticu korelácie. Užitočné pri veľkom počte premenných.

Jedna z variánt korelogramu:

Používané grafy

Boxplot

Boxplot delí dáta na sekcie obsahujúce približne 25 % dát v dátovom súbore. Poskytujú vizuálnu sumarizáciu, vďaka ktorej je jednoduché rýchle určiť priemer, šikmosť dát, kvantily a extrémne hodnoty (outliers).

Náhodná veličina (random variable)

Náhodná veličina je ľubovolná veličina, ktorú je možné opakovane merať a jej hodnoty spracovať metódami pravdepodobnosti alebo štatistiky. Tieto hodnoty sú pred vykonaním experimentu, resp. pozorovania neznáme.
Wikipédia

Náhodná veličina je funkcia, ktorá priraďuje každému elementárnemu náhodnému javu nejakú (spravidla číselnú) hodnotu.
Wikipédia

Nech

(Ω,A,P) je pravdepodobnostný priestor. Náhodná veličina je merateľné priradenie
X:ΩR
.
MV013, 3. prednáška

  • Ω
    = neprázdna množina
  • A
    =
    σ
    -algebra nad
    Ω
  • P
    = pravdepodobnostné ohodnotenie nad
    A

Príklady:

  • počet hláv pri 10-krát opakovanom hode mincou,
  • počet dopravných nehôd za deň,
  • doba čakania na autobus,
  • výška náhodne vybraného študenta.

Náhodná veličina môže byť diskrétna alebo spojitá.

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Wikipedie: Náhodná veličina
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
https://www.statlect.com/fundamentals-of-probability/random-variables

Diskrétna náhodná veličina

Náhodná veličina je diskrétna, ak sa prvky výberového priestoru

Ω zobrazia na os reálnych čísel ako izolované body, označené
x1,x2,...,xk
, pričom každý z týchto bodov má nenulovú pravdepodobnosť.

Pravdepodobnosť, že diskrétna náhodná veličina

X bude mať po vykonaní náhodného pokusu hodnotu
x
, značíme
P(X=x)
alebo
P(x)
.

Výsledkom jedného náhodného pokusu bude, že náhodná veličina bude mať práve jednu hodnotu. Súčet pravdepodobností všetkých možných hodnôt

x diskrétnej náhodnej veličiny
X
je rovný 1
.

xP(x)=1

Diskrétnou náhodnou veličinou je teda všetko, čo môže nadobudnúť len jednotlivé hodnoty z konečného alebo nekonečného intervalu, tzn. môže sa zmeniť len po skokoch.

Príklad: pravdepodobnosť hodu kockou kocka vie nadobudnúť len hodnoty od 1 po 6.

Rozdelenie pravdepodobnosti diskrétnej náhodnej veličina sa vyjadrí tak, že sa určí pravdepodobnosť

P(x) pre všetky
x
z definičného oboru veličiny
X
. Pravdepodobnosti týchto hodnôt sú vyjadrené funkciou
P(x)
, ktorá sa nazýva pravdepodobnostnou funkciou

Platí, že vo výberovom priestore majú prvky súčet svojich pravdepodobností rovný 1.

Hodnoty pravdepodobnostnej funckie sa často vyjadrujú tabuľkou. Príklad:

x
P(x)
x1
0,2
x2
0,3
x3
0,5

Pravdepodobnostnú funkciu vieme využiť k výpočtu pravdepodobnosti. Napríklad pravdepodobnosť, že náhodná veličina

X leží medzi hodnotami
x1
a
x2
môže byť vyjadrená ako
P(x1Xx2)=x=x1x2P(x)
, čo znamená, že sčítame pravdepodobnosti nadobudnutia hodnôt v danom rozsahu.

Rozdelenie početnosti diskrétnej náhodnej veličiny:

Pomocou pravdepodobnostnej funkcie je možné zaviesť distribučnú funkciu vzťahom

F(x)=P(X<x)

Distribučná funkcia je neklesajúca a spojitá sprava. Hodnoty distribučnej funkcie ležia v rozsahu

0F(X)1. Pre diskrétnu náhodnú veličinu
X
je možné pre ľubovoľné reálne číslo
x
vyjadriť distribučnú funkciou vzťahom

F(x)=txP(t)

Pre popis diskrétnych náhodných veličín sa používajú rôzne charakteristiky. Jednou z najdôležitejších je stredná hodnota označená ako

E(X), ktorá je definovaná nasledujúcim vzorcom

E(X)=xkxkP(X=xk)

Rozptyl náhodnej veličiny sa znači

D(X) a vyjadruje veľkosť odchyliek hodnôt náhodnej veličiny od jej strednej hodnoty. Vyjadruje sa ako

D(X)=xkxk2P(X=xk)[E(X)]2

Smerodajná odchýlka, označená ako

σ(X), je definovaná ako odmocnina z rozptylu

σ(X)=D(X)

Stredná hodnota predstavuje číslo, okolo ktorého kolísajú výberové priemery vypočítané zo série pozorovaných hodnôt náhodnej veličiny. Vypočíta sa ako súčet vynásobenia hodnoty náhodnej veličiny s jej pravdepodobnosťou.

Spojitá náhodná veličina

Náhodná veličina je spojitá, ak jej hodnoty priradené prvom výberového priestoru

Ω tvorí interval na osi reálnych čísel, pričom každý bod tohto intervalu má nenulovú pravdepodobnosť.

Spojitou náhodnou veličinou je teda všetko, čo nadobúda spojité hodnoty. Nadobúda hodnoty z konečného alebo nekonečného intervalu, tzn. môže sa meniť spojite bez skokov.

Príklad: doba čakania na šalinu, analógový signál

Hustota pravdepodobnosti popisuje správanie náhodnej veličiny. Hustota predstavuje ekvivalent pravdepodobnostnej funkcie diskrétnej náhodnej veličiny, a teda platí

f(x)dx=1

Pravdepodobnosť, že spojitá náhodná veličina nadobudne hodnoty z intervalu

x1;x2 môže byť vypočítaná ako

P(x1Xx2)=x1x2f(t)dt

Plocha pod krivkou rozdelenia sa rovná jednej, pretože pokrýva všetky hodnoty, ktoré môže náhodná veličina nadobudnúť.

Distribučná funkcia spojitej náhodnej veličiny

X je nezáporná funkcia

F(x)=xf(t)dt

Distribučnú funkciu

F(x) je možné vyjadriť ako plochu pod krivkou pravdepodobnostného rozdelenia.

Pravdepodobnosť, že spojitá náhodná veličina nadobudne hodnoty z intervalu

x1;x2 môže byť zároveň vyjadrená aj pomocou distribučnej funkcie, a to nasledujúcim spôsobom

P(x1Xx2)=F(x2)F(x1)

Od pravdepodobnosti, že náhodná veličina

X nadobudne hodnoty
x2
a menšie odčítame pravdepodobnosť, že nadobude hodnoty
x1
a menšie. Ostane nám teda plocha medzi bodmi
x2
a
x1
, ktorá značí pravdepodobnosť, že
X
nadobudne hodnoty v tomto intervale.

Vyznačenie hodnoty distribučnej funkcie

F(xi):

K popisu spojitej náhodnej veličiny sa používajú číselné charakteristiky. Najdôležitejšou z nich je stredná hodnota (očakávaná hodnota), označovaná ako

E(X), ekvivalentne aj
EX
, definovaná ako

E(X)=xf(x)dx

Ďalšou charakteristikou je rozptyl, označovaný ako

D(X) alebo aj
var(X)
, ktorý je možné vyjadriť ako

D(X)=x2f(x)dx[E(X)]2

K popisu hodnôt rozptýlenia spojitej náhodnej veličiny sa pouźíva častejšie smerodajná odchýlka, označená ako

σ(X). Je definovaná ako

σ(X)=D(X)

Stredná hodnota u spojitej náhodnej veličiny má rovnaký význam ako pri diskrétnej.

Náhodný výber

Náhodný výber je usporiadaná n-tica náhodných veličín

X1,,Xn, ktoré sú stochasticky nezávislé a majú rovnaké rozdelenie (ale nemusíme ho konkrétne poznať).

Realizáciou náhodného výberu sú konkrétne hodnoty

x1,,xn.

Štatistika je ľubovoľná funkcia náhodného výberu.

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
https://mathstat.econ.muni.cz/media/12421/nahodny_vyber_statistika.pdf
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
https://web.vscht.cz/~zikmundm/astat/poznamky_k_AS_7.pdf

Parametrické pravdepodobnostné modely NV (rozdelenia)

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Pre fajnšmekrov: Databáza rozdelení pravdepodobnosti
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Pre menších fajnšmekrov: Tabuľka vzťahov medzi rozdeleniami

Diskrétne rozdelenia

Bernoulliho rozdelenie (alternatívne)

Popisuje udalosti s dvoma možnými výsledkami (úspech, neúspech), pričom úspech má pravdepodobnosť

p, neúspech
1p
.

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Bernoulli(p)
=
Binomial(1,p)

Príklad: úspešné ukončenie predmetu.

Náhodná veličina

XBernoulliho rozdelenie s parametrom
p(0,1)
ak je jej pravdepodobnostná funkcia definovaná nasledovne:

p(x)=P(X=x)={1px=0px=10inak.

  • XBernoulli(p)
  • EX=p
  • varX=p(1p)

Pravdepodobnostná funkcia pre

p=0.65

Distribučná funkcia pre

p=0.65

Binomické rozdelenie

Popisuje počet úspechov v

n opakovaných (medzi sebou nezávislých) Bernoulliho pokusoch, pričom
p
je pravdepodobnosť úspechu v jednom pokuse.

Príklad: počet študentov, ktorí úspešne ukončia predmet.

Náhodná veličina

Xbinomické rozdelenie s parametrami
nN
a
p(0,1)
ak je jej pravdepodobnostná funkcia definovaná nasledovne:

p(x)=P(X=x)={(nx)px(1p)nx0inak.

  • XBinomial(n,p)
  • EX=np

    (čím vyššia pravdepodobnosť úspechu, tým väčší počet úspešných pokusov)
  • varX=np(1p)

Pravdepodobnostná funkcia:

Pozn.: graf pripomína pravdepodobnostnú funkciu normálneho rozdelenia, viď napr. aproximácia normálnym rozdelením pomocou centrálnej limitnej vety.

Distribučná funkcia:

Poissonovo rozdelenie

Popisuje počet výskytov nezávislej udalosti za fixný (časový/priestorový/) interval.

Príklad: počet prichádzajúcich hovorov do call centra za hodinu, počet narodených detí v Česku za deň

Náhodná veličina

XPoissonovo rozdelenie s parametrom
λ>0
ak je jej pravdepodobnostná funkcia definovaná nasledovne:

p(x)=P(X=x)={eλλxx!x=0,1,...,0inak.

  • XPois(λ)
  • EX=λ
  • varX=λ
  • λ
    = očakávaný počet výskytov udalosti za daný interval

Pravdepodobnostná funkcia:

image alt

Distribučná funkcia:

image alt

Geometrické rozdelenie

Popisuje počet zlyhaní v opakovanom Bernoulliho experimente pred prvým úspechom.

Príklad: počet zlyhaní než na kocke hodíme šestku, počet prenesených bitov než sa stane prvá chyba (ak prenášame len do prvej chyby)

Náhodná veličina

Xgeometrické rozdelenie s parametrom
p(0,1)
ak je jej pravdepodobnostná funkcia definovaná nasledovne:

p(x)=P(X=x)={p(1p)xx=0,1,,0inak.

  • XGeom(p)
  • EX=1pp
  • varX=1pp2

Niekedy sa definuje aj ako

p(x)=p(1p)x1 pre
x=1,2,
, podľa toho, či nás zaujíma počet zlyhaní pred úspechom (vyššie) alebo počet pokusov potrebných na dosiahnutie prvého úspechu (tj. s úspechom vrátane).

Pravdepodobnostná funkcia:
(vľavo definícia "vrátane", vpravo definícia "počet zlyhaní")

Distribučná funkcia:
(vľavo definícia "vrátane", vpravo definícia "počet zlyhaní")

(Diskrétne) rovnomerné rozdelenie

Rovnaká pravdepodobnosť pre každý jav z množiny

A.

Príklad: posledná cifra náhodne vybraného telefónneho čísla, počet bodiek na kocke pri jednom hode

Náhodná veličina

Xdiskrétne rovnomerné rozdelenie na konečnej množine
A
ak je jej pravdepodobnostná funkcia definovaná nasledovne:

p(x)=P(X=x)={1AxA,0inak.

  • XUniform(A)
  • neexistuje všeobecný vzorec pre
    EX
    a ani
    varX

Pravdepodobnostná funkcia:

Distribučná funkcia:

Spojité rozdelenia

Rovnomerné rozdelenie

Priraďuje všetkým hodnotám náhodnej veličiny rovnakú pravdepodobnosť. Používa sa pri generovaní pseudonáhodných čísel.

Spojitá náhodná veličina X má rovnomerné rozdelenie na intervale

(a,b), kde parametre
a,b
sú ľubovoľné reálne čísla, pre ktoré platí, že
a<b
práve vtedy, ak jej hustota pravdepodobnosti má nasledujúci tvar

f(x)={1ba;x(a,b),0;x(a,b)

Distribučná funkcia má tvar:

F(x)={0;x<0,xaba;a<x<b,1;xb

  • XR(a,b)
  • E(X)=a+b2
  • var(X)=(ba)212

Funkcia hustoty rozdelenia:

image alt

Exponenciálne rozdelenie

Vyjadruje čas medzi náhodne sa vyskytujúcimi udalosťami. Využíva sa napríklad v poistnej matematike pri určení času medzi poistnými udalosťami. Pravdepodobnosť nastania udalosti nezávisí na prečkanej dobe.

Spojitá náhodná veličina X má exponenciálne rozdelenie s parametrom

λ>0 práve vtedy, ak jej hustota pravdepodobnosti má nasledujúci tvar:

fx(x)={λeλx;x>0,0;x0

Distribučná funkcia má tvar:

F(x)={1eλx;x>0,0;x0

  • XExp(λ)
  • E(X)=1λ
  • var(X)=1λ2

Hustota exponenciálneho rozdelenia:
image alt

Normálne rozdelenie

Normálne rozdelenie, niekedy nazývané aj Gaussovo rozdelenie, je najčastejšie používané rozdelenie. Má mnoho významných teoretických vlastností a z hľadiska aplikácie býva vhodné na vyjadrenie náhodných veličín, ktoré je možné interpretovať ako aditívny výsledok veľa nezávislých vplyvov (chyba merania, odchýlka rozmeru výrobku od požadovanej hodnoty, atď).

Normálne rozdelenie pravdepodobnosti s parametrami

μ a
σ2
, kde
σ
, má hustotu:

f(x)=1σ2πe(xμ)22σ2

  • XN(μ,σ2)
  • E(X)=μ
  • var(X)=σ2


Rozdelenie

N(0,1) sa označuje ako normované alebo štandardizované normálne rozdelenie. Toto rozdelenie má teda hustotu:

f(x)=12πex22

Grafy hustôt normálneho rozdelenia:

image alt

Grafy odpovedajúcich distribučných funkcií:

image alt

Transformáciou náhodnej veličiny

X s rozdelením
N(μ,σ2)
na náhodnú veličinu

U=Xμσ

dostaneme náahodnú veličinu s normovaným (štandardizovaným) normálnym rozdelením

N(0,1) a distribučnou funkciou
F(u)
.

Zmenšovanie parametru

μ posúva rozdelenie po osi
x
vľavo, zväčšovanie ho posúva vpravo. Čím väčší je parameter
σ2
, tým viac plochá je krivka (hodnoty sa viac líšia od priemeru). Štandardizáciúou sa od náhodnej veličiny odčíta jej stredná hodnota
μ
, čím sa krivka posunie na x-ovej osi na bod 0.

Pre hodnoty

F(u) distribučnej funkcie normovaného normálneho rozdelenia platí

F(u)=1F(u)

dostaneme náahodnú veličinu s normovaným (štandardizovaným) normálnym rozdelením

N(0,1).

Pre kvantily normovaného normálneho rozdelenia platí

u1P=uP

kde

0<P<1.

Tieto vlastnosti plynú zo stredovej symetrie rozloženia. Pre ilustráciu si môžeme za

u pri výpočte hodnoty distribučnej funkcie dosadiť číslo 0,5. Po odčítaní hodnoty
F(0,5)
od 1 dostaneme pravdepodobnosť, ktorá je vďaka stredovej symetrii rovnaká ako
F(0,5)

Ak má náhodná veličina

X normálne rozloženie
N(μ,σ2)
, jej distribučnú funkciu je možné vyjadriť ako

F(X)=F(xμσ)

Chi-kvadrát rozdelenie

Rozdelenie zvykne byť používané pri určovaní intervalových odhadov neznámych parametrov a pri testovaní hypotéz.

Rozdelenie chi kvadrát, taktiež nazývané aj Pearsonovo rozdelenie, s

n stupňami voľnosti je spojité rozdelenie pravdepodobnosti. Hustota pravdepodobnosti rozdelenia má tvar

f(x)={0;x0,1Γ(n2)2n2ex2xn21;x>0

  • Xχ2(n)
  • E(X)=n
  • var(X)=2n

Grafy hustôt chi kvadrát rozdelenia:

k značí počet stupňov voľnosti

Log-normálne rozdelenie

Logaritmicko-normálne rozdelenie s parametrami

μ a
σ
je spojité rozdele pravdepodobnosti jednorozmernej reálnej náhodnej veličiny
X
také, že náhodná veličina
ln(X)
má normálne rozdelenie so strednou hodnotou
μ
a smerodajnou odchýlkou
σ
.

Hustota logaritmicko-normálneho rozdelenia má tvar

fx(x)=1xσ2πe(lnxμ)22σ2,x>0

  • XLN(μ,σ)
  • EX=eμ+σ2/2
  • varX=(eσ21)e2μ+σ2

Hustoty logaritmicko-normálneho rozdelnia:
image alt

Studentovo t-rozdelenie

Studentovo rozloženie je spojité rozdelenie pravdepodobnosti, ktoré sa najčastejšie používa pri určovaní intervalových odhadov a pri testovaní štatistických hypotéz.

Nech

X je náhodná veličina a
n
je prirodzené číslo. Potom táto náhodná veličina
X
Studentovo rozloženie (taktiež nazývané aj t-rozloženie) s
n
stupňami voľnosti, pokiaľ jej hustota pravdepodobnosti má nasledovný tvar

fn(x)=Γ(n+12)Γn2nπ(1+x2n)n+12

  • Xt(n)
  • EX=μ
  • varX=σ2

Stupne voľnosti reprezentujú počet nezávislých údajov, na ktorých je založený parametrický odhad.

Funkcia hustoty Studentovho rozdelenia:
(

v značí počet stupňov voľnosti)
image alt

Centrálna limitná veta (CLV, Central Limit Theorem)

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
CLV na portálu matematické biologie
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
StatQuest: The Central Limit Theorem [YouTube]

Centrální limitní věta je klíčové matematické tvrzení, které popisuje pravděpodobnostní chování výběrového průměru pro velké vzorky a umožňuje tak sestrojení intervalových odhadů, a to nejen pro normálně rozdělené náhodné veličiny.

Lindeberg-Lévy CLV

Mějme posloupnost

X1,,Xn nezávislých, stejně rozdělených náhodných veličin (a.k.a. náhodný výběr), které mají konečnou střední hodnotu
μ
a rozptyl
σ2>0
. Pak asymptoticky pro
n
platí:

(1)X=1ni=1nXiN(μ,σ2n)(2)nXμσ2N(0,1)(3)i=1nXinμnσ2N(0,1)

Komentár: bez ohľadu na to, z akého rozdelenia máme náhodné výbery, výberový priemer bude mať (pre dostatočne veľké

n) asymptoticky normálne rozdelenie s určitými parametrami (viď
(1)
vyššie). Po vhodnej normalizácii výberového priemeru dostaneme asymptoticky štandardné normálne rozdelenie
N(0,1)
(viď
(2)
a
(3)
vyššie).

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Centrální limitní věta funguje dokonce i tehdy, když rozdělení původní náhodné veličiny není spojité, ale diskrétní.

Zjednodušená interpretace CLV: pokud je rozdělení pravděpodobnosti náhodné veličiny

X normální, pak je i rozdělení průměru pozorovaných hodnot normální (a to i pro
n=1
). Pokud však rozdělení pravděpodobnosti náhodné veličiny
X
normální není, pak je rozdělení průměru pozorovaných hodnot přibližně normální, když
n
je dostatečně velké
(matematicky řečeno, pro n jdoucí do nekonečna).

Minimální velikost souboru pro výpočet průměru (Lindeberg-Lévy):

  • n30
    v případě rozdělení pravděpodobnosti podobných normálnímu;
  • n100
    pro rozdělení, která nejsou podobná normálnímu

(názory na minimálni hodnoty

n se liší)

Teória a zároveň princíp použitia CLV pre výpočet pravdepodobnosti:

MV013, lecture 4



MV013, lecture 4

Príklad výpočtu s použitím CLV

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

MV013, lecture 4

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Continuity correction (oprava na spojitosť) sa používa pri aproximácii diskrétneho rozdelenia spojitým.

Pre diskrétne rozdelenia

P(Xx)=P(X<x+1). Ak platia podmienky Moivre-Laplaceovej CLV, dá sa vyššie uvedené aproximovať pomocou
P(Y<x+0.5)

Bodové a intervalové odhady, princíp vieryhodnosti

Cieľom odhadu je určenie neznámeho parametru náhodnej veličiny

X na základe informácie obsiahnutej vo výberovom súbore (realizácií náhodnej veličiny, datasete). Zaujíma nás predovšetkým hodnota a presnosť odhadu.

Nestranný odhad (unbiased estimator) parametru

θ je odhad, jehož střední hodnota je rovna θ a to pro každou hodnotu, které může tento parametr ze své definice nabývat. Nestrannost odhadu je celkem logickým omezením, které nám říká, že tento odhad má vzhledem ke střední hodnotě nulové vychýlení.

Nejlepší nestranný odhad má ze všech nestranných odhadů nejmenší rozptyl (variabilitu).

Příklad nestranného odhadu: výběrový průměr jako odhad střední hodnoty (parametru

μ) normálního rozdělení.

Konzistentný odhad

Bodový odhad (point estimate)

Parameter odhadujeme pomocou jednej hodnoty, ktorá sa snaží hodnotu parametru aproximovať.




MV011

Intervalový odhad (range estimate)

Parameter odhadujeme pomocou intervalu, ktorý daný parameter s veľkou pravdepodobnosťou obsahuje. Dĺžka intervalu vypovedá o presnosti odhadu.

Interval spolehlivosti (konfidenční interval) pro parametr

θ se spolehlivostí
1α
, kde
α[0,1]
, je dvojice statistik
(Td(X),Th(X))
taková, že

P(Td(X)θTh(X))=1α

  • Intervalový odhad je konkrétní realizace intervalu spolehlivosti.
  • Koeficient
    α
    nazýváme hladinou významnosti.
  • Pro oboustranný intervalový odhad platí
    P(θTd(X))=P(θTh(X))=α2
  • Pro levostranný (dolní) intervalový odhad platí
    P(Td(X)θ)=1α
  • Pro pravostranný (horní) intervalový odhad platí
    P(θTh(X))=1α


Tvorba intervalového odhadu

  1. Zvolíme vhodnou výběrovou charakteristiku
    T(X)
    jejíž rozdělení závislé na
    θ
    známe.
  2. Určíme
    α
    a kvantily
    tα2
    a
    t1α2
    z
    T(X)
  3. Stanovíme meze pro
    θ
    z podmínky
    tα2T(X)t1α2
  4. Profit!

Příklad: intervalový odhad střední hodnoty

μ normálního rozdělení s neznámým rozptylem se spolehlivostí
0.95
. Máme vzorek velikosti
n
s výběrovým průměrem
X¯
a výběrovým rozptylem
S2
.

  1. Zvolíme statistiku
    T(X)=XμSn
  2. Z vlastností Studentova rozdělení víme:
    T(X)t(n1)
  3. Dosadíme:
    P(tα2(n1)X¯μSnt1α2(n1))=0.95
  4. Využijeme
    tα2(n1)=t1α2(n1)
    , tedy:
    P(t1α2(n1)X¯μSnt1α2(n1))=0.95
  5. Vytáhneme vše z prostředku:
    P(X¯Snt1α2(n1)μX¯+Snt1α2(n1))=0.95
  6. Vyčíslíme.

Princíp vieryhodnosti (likelihood principle)

Maximum likelihood estimate

Log-likelihood funkcia a likelihood funkcia majú maximum v rovnakom bode, s log-likelihoodom sa lepšie pracuje.

Alternatívne metódy odhadovania parametrov:

  • method of moments
  • ordinary least-squares method

Obe metódy sú neparametrické -> MLE využíva informáciu o rozdelení pravdepodobnosti a je most efficient estimator.
Nevýhody: zložitejší výpočet, treba riešiť predpoklady o rozdelení (v prípade potreby sa dá použiť CLV).

Štatistická inferencia testovanie hypotéz

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
Príklady voľby štatistík pri rôznych testoch

Cieľom testovania hypotéz je overiť, či dáta nepopierajú predpoklad (hypotézu).

Nulová hypotéza

H0
Alternatívna hypotéza
H1

Alternatívna hypotéza je to, čo nás v skutočnosti zaujíma.

p-value je

Chyby v testovaní hypotéz

Chyba 1. typu nastane, keď zamietneme

H0 aj napriek tomu, že v skutočnosti platí.

Chyba 2. typu nastane, keď nezamietneme

H0 aj napriek tomu, že v skutočnosti neplatí.

H0
platí
H1
platí
zamietame
H0
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
chyba 1. typu
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
OK
nezamietame
H0
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
OK
Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →
chyba 2. typu


Parametrické testy

ANOVA

ANOVA (ANalysis Of VAriance) je parametrickým testem testujícím zda na hodnotu náhodné veličiny má statisticky významný vliv hodnota některého znaku, který se u náhodné veličiny dá pozorovat.

Neparametrické testy

Motivací pro neparametrické testy je fakt, že pro parametrické testy je třeba splnit podmínky (normalita, homogenita, …). Nevýhodou neparametrických je však slabší test (tedy zamítnutí

H0 je méně pravděpodobné).

Lineárny regresný model