Try   HackMD

03 Statistika - CZ (8h)

tags: řsss-základ, matika, mv013

Statistika. Popisná statistika (charakteristiky polohy a variability, pořádkové statistiky, statistiky asociace, související grafy). Diskrétní a spojité náhodné veličiny (NV). Náhodný výběr. Parametrické pravděpodobnostní modely (distribuce) NV. Centrální limitní věta. Princip věrohodnosti, bodové a intervalové odhady. Statistická inference - testování hypotéz, hladina významnosti, koeficient spolehlivosti. Testování hypotéz na jednom vzorku, dvou vzorcích, více než dvou vzorcích (včetně jednovýběrových, dvouvýběrových a párových t-testů, ANOVA a post-hoc testů), testů dobré shody. Lineární regresní model. (MV013)


Vzorce a formální definice.

Vzorce a definice

Volné definice a vysvětlení.

Vysvetlenie

Príklad

:book: Zdroj, další zdroje na přečtení

Takto *[MV013] sú označené pojmy, ktoré nie sú v zadaní otázky, no preberali sa na MV013 a môžu sa zísť.


Disclaimer: poznámky sú z veľkej miery prevzaté z materiálov vypracovaných študentami umelej inteligencie a spracovania dát na podzim 2020.


Statistika je vědní obor, který se zabývá sběrem, organizací, analýzou, interpretací a prezentací empirických dat za účelem prohloubení znalostí určité oblasti, obvykle hromadného jevu.

Popisná štatistika

Popisná statistika je statistika, která kvantitatívně popisuje nebo sumarizuje vlastnosti nějaké sady dat, zatímco popisná statistika představuje proces používání a analýzy těchto popisných statistik

:bulb: Popisná statistika se od infereční statistiky liší cílem shrnout, resp. popsat vzorek dat namísto odvodzování poznatků o populaci, kterou reprezentuje daný vzorek.

Typy proměnných

  • číselné
  • kategorické
    • nominální (neexistuje uspořádání), např. barva očí, pohlaví, bydliště
    • ordinálne (existuje uspořádání), např. známka ve škole, dosažené vzdělání

Má zmysel daná charakteristika pre daný typ premennej?

charakteristika číselná nominálna ordinálna
priemer :heavy_check_mark: :x: :x:
medián :heavy_check_mark: :x:
modus :heavy_check_mark: :heavy_check_mark: :heavy_check_mark:
kvantil :heavy_check_mark: :x:
rozptyl :heavy_check_mark: :x: :x:
smerodajná odchýlka :heavy_check_mark: :x: :x:
Giniho koeficient :heavy_check_mark: :heavy_check_mark:
entropia :heavy_check_mark: :heavy_check_mark:

Charakteristiky polohy

Typická hodnota, která vystihuje danou sadu hodnot. Některé mohou být vhodnější (víc vystihující) než jiné.

Aritmetický průměr (mean)
x¯

Součet hodnot dělený počtem hodnot.

x¯=1ni=1nxi

  • Lehce ovlivnitelné extrémními hodnotami, možné řešení: *[MV013]
    • trimmed mean = priemer po odstránení určitého počtu extrémnych hodnôt (používa sa napr. pri športoch, ktoré sú hodnotené porotou najnižšie a najvyššie skóre sa zruší, výsledok je priemer zostávajúcich hodnôt),

      Príklad: hodnoty 7, 11, 2, 6, 14

      usporiadané 2, 6, 7, 11, 14
      0.2
      -trimmed mean = by znamenalo odstranit 20 % nejnižších a 20 % nejvyšších hodnot, tudíž by výsledá sada byla 6, 7, 11.

    • winsorized mean = priemer po nahradení určitého počtu extrémnych hodnôt menej extrémnymi (najbližšou hodnotou zo sady).

      Príklad: Máme sadu 1, 5, 7, 8, 9, 10, 34. Po aplikaci winsorized mean dostaneme 5, 5, 7, 8, 9, 10, 10.

Medián (median)
x~

Hodnota nacházející se přesně v polovině seřazeného seznamu hodnot.
Jinak řečeno, polovina hodnot je menší než medián a polovina je větší než medián.

x~=x(n+12) pre nepárne (liché)
n
,
x~=x(n2)+x(n2+1)2
pre párne (sudé)
n
.

  • Ak je počet hodnôt párny (sudý), neexistuje jedna hodnota, ktorá by bola presne v polovici
    počíta sa priemer z dvoch hodnôt.
  • Vhodnejšia charakteristika polohy ako priemer v prípade skewed dát.
  • :bulb:
    0.5
    -kvantil

Modus (mode)

Hodnota, která se v sadě hodnot vyskytuje nejčastěji, nemusí být určená jednoznačně.

  • :bulb: Vhodná charakteristika i pro kategorické proměnné.

Kvantil (quantile)

Hodnota, která je větší nebo rovna jako

α100 % hodnot ze sady.

qα=x(nα)

  • q0.5
    = medián
  • q0.25
    = 1. kvartil (
    Q1
    )
  • q0.75
    = 3. kvartil (
    Q3
    )
  • q0.75q0.25
    = kvartilová odchýlka (
    IQR
    = interquartile range)

Charakteristiky variability

Rozptyl (variance)

Průměr ze součtu čtverců (sum of squares).
Říká, jak moc se liší hodnoty od průměru.

s2=1n1i=1n(xix¯)2

Směrodatná odchylka (standard deviation)

Odmocnina z rozptylu.
Říká, jak moc se průměrně liší jednotlivé hodnoty od průměrné hodnoty.
Pokud budeme mít v sadě 2 hodnoty: 2 a 4, jejich průměr je 3. Obě dvě hodnoty se liší od průměru o 1. Tudíž směrodatná odchylka je 1.

s=1n1i=1n(xix¯)2

Charakteristiky tvaru *[MV013]

Koeficient šikmosti (skewness) *[MV013]

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

  • Šikmost
    =0
    značí, že hodnoty náhodné veličiny jsou rovnoměrně rozdělené vlevo a vpravo od střední hodnoty.
  • Šikmost
    >0
    (right-skewed distribution) značí, že vpravo od průměru se vyskytují odlehlejší hodnoty než vlevo (rozdělení má tzv. right tail) a väčšina hodnôt sa nachádza blízko vľavo od priemeru.
  • Pro šikmost
    <0
    (left-skewed distribution) platí opak.
  • Symetrické rozdělení (včetně normálního) mají šikmost
    =0.
  • Pro rozdělení s kladnou šikmostí obvykle platí, že modus je menší než medián a ten je menší než střední hodnota (pro zápornou šikmost naopak).
    Wikipedia

Koeficient špičatosti (kurtosis) *[MV013]

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

  • Špičatost
    >0
    značí, že většina hodnot náhodné veličiny leží blízko její střední hodnoty a hlavní vliv na rozptyl mají málo pravděpodobné odlehlé hodnoty. Křivka hustoty je špičatější než při normálním rozdělení.
  • Špičatost
    <0
    značí, že rozdělení je rovnoměrnější a křivka jeho hustoty je víc plochá než pri normálním rozdělení.
  • Normálne rozdelenie má špicatosť
    =0
    .
  • Špicatosť rozdelenia nezávisí od lineárnej transformácie náhodnej veličiny, je teda napr. rovnaká pre všetky normálne rozdelenia.
    Wikipedie

Poriadkové štatistiky (výberové charakteristiky dané poradím)

Pořádková statistika = vzestupně uspořádané prvky souboru

x(1),x(2),,x(n).

Z takto vytvořené pořádkové statistiky lze konstruovat kvantilové charakteristiky.

Statistiky asociace

Statistiky asociace jsou faktory nebo koeficienty, které kvantifikují vztah mezi dvěma nebo vícero veličinami.

Kovariance

Kovariance je statistickou mírou lineární závislosti dvou veličin.
Wikipedia

Nech

x=(x1,,xn)T a
y=(y1,,yn)T
.

Kovariance

c je definována následovně:

c=1n1i=1n(xix¯)(yiy¯)

Od každého prvku výběru

x odečteme výběrový průměr (výběrový průměr je průměr vybraných prvků)
x¯
, od každého prvku výběru
y
odečteme výběrový průměr
y¯
, rozdíly mezi sebou podle indexů vynásobíme (
(x1x¯)(y1y¯)
,
(x2x¯)(y2y¯)
atď.), výsledné součiny sčítáme a vydělíme
n1
.

Vzorec předpokladá, že výběry
x
a
y
mají stejnou velikost
n
.

Pokud je

cov(X,Y)>0, obě proměnné se mění stejným směrem (pokud roste jedna, roste i druhá a naopak), jsou si úměrné.
Pokud je
cov(X,Y)<0
, proměnné jsou nepřímo úměrné.
Pokud je
cov(X,Y)=0
, proměnné na sobě nezávisí.
Kovariance nám nic neříká o síle vazby - je vyjádřená v jednotkách X a Y.

Korelace

Korelace znamená vzájemný vztah mezi dvěma procesy nebo veličinami. Pokud se jedna z nich mění, mění se korelativně i druhá a naopak. Pokud se mezi dvěma procesy ukáže korelace, je pravděpodobné, že na sobě závisejí, nelze z toho však ještě usoudit, že by jeden z nich musel být příčinou a druhý následkem. To samotná korelace nedovoluje rozhodnout, protože korelace neimplikuje kauzalitu.
Wikipedia

:bulb: Korelace je normalizovaná kovariance.

Nech

x=(x1,,xn)T a
y=(y1,,yn)T
.

Korelácia

r je definovaná nasledovne:

r=i=1n(xix¯)(yiy¯)i=1n(xix¯)2i=1n(yiy¯)2

Korelace se počítá podobně jako kovariance, ale čitatel se dělí odmocninou ze součinu součtu čtverců (sum of squares) pro

x a pro
y
.

Hodnota

r>0.8 znamená silný pozitivní lineární vztah,
r<0.8
silný negativní lineární vztah a
r=0
značí, že mezi veličinami neexistuje lineární vztah.

Interpretace korelace v přírodních vědách:

|ρ|0;0,4) - malá nebo žádná korelace.
|ρ|0,4;0,6)
- slabá korelace
|ρ|0,6;0,8)
- střední korelace
|ρ|0,8;1)
- silná korelace

Korelace představuje kovarianci na škále

1;1.

Matice korelace

Korelační matice je tabulka, která zobrazuje korelační koeficienty pro vybrané proměnné. Je to dobrý nástroj pro vizualizaci závislostí proměnných v datasetu.

correlation matrix

Korelace mezi "Hours spent studying" a "Exam score" je silně pozitivní, tudíž to znamená, že pokud jsme strávili učením hodně hodin, dosáhli jsme lepších výsledků.
Kdežto "Hour spent studying" a "Hours spent sleeping" má negativní korelaci, což znamená, že pokud jsme více hodin studovali, tak jsme méně hodin spali a naopak.
Příklad žádné korelace může být "IQ score" a "Hour spent sleeping". Kolik hodin spánku si dopřáváme nemá prakticky žádný vliv na naše IQ

Scatterplot

Vizualizuje hodnoty dvoch premenných v 2D priestore. Využíva sa na sledovanie vzťahov medzi premennými.
V prípade, že sa scatterplot používa na zobrazenie korelácie medzi premennými, zvykne sa do grafu priložiť krivka, ktorá reprezentuje tento vzťah.

Obrázek ukazuje korelaci výnosů z prodeje zmrzliny v závislosti na venkovní teplotě. Scatterplot vykazuje pozitivní korelaci, protože výnosy zmrzliny byly vyšší při vyšších (teplejších) teplotách.

Korelogram

Vizualizuje correlation matrix. Užitočné pri veľkom počte premenných.
Prakticky stejné jako correlation matrix.

Jedna z variánt korelogramu:

Používané grafy

Boxplot

Boxplot delí dáta na sekcie obsahujúce približne 25 % dát v dátovom súbore. Poskytujú vizuálnu sumarizáciu, vďaka ktorej je jednoduché rýchle určiť priemer, šikmosť dát, kvantily a extrémne hodnoty (outliers).

Náhodná veličina (random variable)

Náhodná veličina je libovolná veličina, kterou je možné opakovaně měřit a její hodnoty zpracovávat metodami pravděpodobnosti nebo statistiky. Tyto hodnoty jsou před vykonáním experimentu, resp. pozorováním, neznámé.
Wikipédia

Přesněji, náhodná veličina je funkce, která přiřazuje každému elementárnímu náhodnému jevu nějakou (zpravidla číselnou) hodnotu (například při hodu mincí "panně" nulu a "orlu" jedničku).
Wikipédia

Nech

(Ω,A,P) je pravděpodobnostní prostor.
MV013, 3. prednáška

  • Ω
    = neprázdna množina
  • A
    =
    σ
    -algebra nad
    Ω
  • P
    = pravdepodobnostné ohodnotenie nad
    A

Príklady:

  • počet hláv pri 10-krát opakovanom hode mincou,
  • počet dopravných nehôd za deň,
  • doba čakania na autobus,
  • výška náhodne vybraného študenta.

Náhodná veličina môže byť diskrétna alebo spojitá.

Diskrétní náhodná veličina

Náhodná veličina je diskrétní, pokud se prvky výběrového prostoru

Ω zobrazí na ose reálných čísel jako izolované body, označené
x1,x2,...,xk
, přičem každý z těchto bodů má nenulovou pravděpodobnost.

Pravděpodobnost, že diskrétní náhodná veličina

X bude mít po vykonání náhodného pokusu hodnotu
x
, značíme
P(X=x)
nebo
P(x)
.

Výsledkem jednoho náhodného pokusu bude, že náhodná veličina bude mít právě jednu hodnotu. Součet pravděpodobností všech možných hodnot

x diskrétní náhodné veličiny
X
je rovný 1
.

xP(x)=1

Diskrétní náhodnou veličinou je tedy všechno, čo může nabýt jen jednotlivé hodnoty z konečného nebo nekonečného intervalu, tzn. může se změnit pouze skokově.

Príklad: pravdepodobnosť hodu kockou kocka vie nadobudnúť len hodnoty od 1 po 6.

Rozdelenie pravdepodobnosti diskrétnej náhodnej veličina sa vyjadrí tak, že sa určí pravdepodobnosť

P(x) pre všetky
x
z definičného oboru veličiny
X
. Pravdepodobnosti týchto hodnôt sú vyjadrené funkciou
P(x)
, ktorá sa nazýva pravdepodobnostnou funkciou

Platí, že vo výberovom priestore majú prvky súčet svojich pravdepodobností rovný 1.

Hodnoty pravdepodobnostnej funckie sa často vyjadrujú tabuľkou. Príklad:

x
P(x)
x1
0,2
x2
0,3
x3
0,5

Pravdepodobnostnú funkciu vieme využiť k výpočtu pravdepodobnosti. Napríklad pravdepodobnosť, že náhodná veličina

X leží medzi hodnotami
x1
a
x2
môže byť vyjadrená ako
P(x1Xx2)=x=x1x2P(x)
, čo znamená, že sčítame pravdepodobnosti nadobudnutia hodnôt v danom rozsahu.

Rozdelenie početnosti diskrétnej náhodnej veličiny:

Pomocou pravdepodobnostnej funkcie je možné zaviesť distribučnú funkciu vzťahom

F(x)=P(X<x)

Distribuční funkce je neklesající a spojitá zprava. Hodnoty distribuční funkce leží v rozsahu

0F(X)1. Pro diskrétní náhodnou veličinu
X
je možné pro libovolné reálné číslo
x
vyjádřit distribuční funkci vztahem:

F(x)=txP(t)

Distribuční funkce nám říká, s jakou pravděpodobností nabude náhodná veličina hodnoty menší-rovno x.

Pro popis diskrétních náhodných veličin se používají různé charakteristiky. Jednou z nejdůležitějších je střední hodnota označená jako

E(X), která je definovaná následujícím vzorcem:

E(X)=xkxkP(X=xk)

Rozptyl náhodné veličiny se značí

D(X) a vyjadřuje velikost odchylek hodnot náhodné veličiny od její střední hodnoty. Vyjadřuje se jako:

D(X)=xkxk2P(X=xk)[E(X)]2

Směrodatná odchylka, označená jako

σ(X), je definovaná jako odmocnina z rozptylu:

σ(X)=D(X)

Střední hodnota představuje číslo, okolo kterého kolísají výběrové průměry vypočítané ze série pozorovaných hodnot náhodné veličiny. Vypočítá se jako součet vynásobení hodnoty náhodné veličiny s její pravděpodobností.
Příklad:

  • Mějme náhodnou veličinu, která s pravděpodobností 0,3 nabývá hodnoty 1, s pravděpodobností 0,2 nabývá hodnoty 2 a s pravděpodobností 0,5 nabývá hodnoty 3.
    Střední hodnota je pak (0,3 × 1) + (0,2 × 2) + (0,5 × 3) = 2,2.

Spojitá náhodná veličina

Náhodná veličina je spojitá, pokud její hodnoty přiřazené prvkům výběrového prostoru

Ω tvoří interval na ose reálných čísel, přičemž každý bod tohoto intervalu má nenulovou pravděpodobnost.

Spojitou náhodnou veličinou je tedy všechno, co nabývá spojité hodnoty. Nabývá hodnoty z konečného nebo nekonečného intervalu, tzn. může se měnit spojitě bez skoků.

Príklad: doba čakania na šalinu, analógový signál

Hustota pravděpodobnosti popisuje chování náhodné veličiny. Hustota představuje ekvivalent pravděpodobnostní funkce diskrétní náhodné veličiny, a teda platí:

f(x)dx=1

Pravděpodobnost, že spojitá náhodná veličina nabyde hodnoty z intervalu

x1;x2 může být vypočítáná jako:

P(x1Xx2)=x1x2f(t)dt

Plocha pod křivkou rozdělení se rovná jedné, protože pokrývá všechny hodnoty, které může náhodná veličina nabývat.

Distribuční funkce spojitá náhodná veličiny

X je nezáporná funkce:

F(x)=xf(t)dt

Distribuční funkci

F(x) je možné vyjádřit jako plochu pod křivkou pravděpodobnostního rozdělení.

Pravděpodobnost, že spojitá náhodná veličina nabyde hodnoty z intervalu

x1;x2 může být zároveň vyjádřená i pomocí distribuční funkce, a to následujícím způsobem:

P(x1Xx2)=F(x2)F(x1)

Od pravdepodobnosti, že náhodná veličina

X nadobudne hodnoty
x2
a menšie odčítame pravdepodobnosť, že nadobude hodnoty
x1
a menšie. Ostane nám teda plocha medzi bodmi
x2
a
x1
, ktorá značí pravdepodobnosť, že
X
nadobudne hodnoty v tomto intervale.

Vyznačení hodnoty distribuční funkce

F(xi):

K popisu spojité náhodné veličiny se používají číselné charakteristiky. Nejdůležitější z nich je střední hodnota (očekávaná hodnota), označovaná jako

E(X), ekvivalentně i
EX
, definovaná jako:

E(X)=xf(x)dx

Další charakteristikou je rozptyl, označovaný jako

D(X) nebo i
var(X)
, který je možné vyjádřit jako:

D(X)=x2f(x)dx[E(X)]2

K popisu hodnot rozptýlení spojité náhodné veličiny se používá nejčastěji směrodatná odchylka, označená jako

σ(X). Je definovaná jako:

σ(X)=D(X)

Střední hodnota u spojité náhodné veličiny má stejný význam jako při diskrétní.
Příklad

  • Mějme náhodnou veličinu, jejíž hustota pravděpodobnosti na intervalu <0,1> je f(x) = 2x, jinde identicky rovna nule. To je rozdělení, v němž je hustota pravděpodobnosti přímo úměrná hodnotě x.
  • Střední hodnota uvedené náhodné veličiny tedy je
    23
    .

Náhodný výběr

Náhodný výber je uspořádaná n-tice náhodných veličin

X1,,Xn, které jsou stochasticky nezávislé a mají stejné rozdělení (ale nemusíme ho konkrétně znát).

Realizací náhodného výběru jsou konkrétní hodnoty

x1,,xn.

Příklad: Budeme chtít získat informace o průměrném platu v ČR. Abychom měli přesné informace, museli bychom se zeptat všech občanů na jejich plat. Toto je prakticky neproveditelné, proto učiníme náhodný výběr lidí a těch se zeptáme na jejich plat, z čehož vypočítáme průměr.

Statistika je libovolná funkce náhodného výběru.

Parametrické pravděpodobnostní modely NV (distribuce)

:bar_chart: Pre fajnšmekrov: Databáza rozdelení pravdepodobnosti
:book: Pre menších fajnšmekrov: Tabuľka vzťahov medzi rozdeleniami

Diskrétní rozdělení

Bernoulliho (Binomické) rozdělení (alternativní)

Popisuje události s dvěma možnými výsledky (úspěch, neúspěch), přičemž úspěch má pravděpodobnost

p, neúspěch
1p
.

:bulb:

Bernoulli(p) =
Binomial(1,p)

Príklad: Hod mincí.

Náhodná veličina

XBernoulliho rozdělení s parametrem
p(0,1)
pokud je její pravděpodobnostní funkce definována následovně:

p(x)=P(X=x)={1px=0px=10jinak.

  • XBernoulli(p)
  • EX=p
  • varX=p(1p)

Pravděpodobnostní funkce pro

p=0.65

Distribuční funkce pro

p=0.65

Binomické rozdělení

Popisuje počet úspěchů v

n opakovaných (mezi sebou nezávislých) Bernoulliho pokusech, přičemž
p
je pravděpodobnost úspěchu v jednom pokusu.

Příklad: Hazíme desetkrát kostkou, jaká je pravděpodobnost, že právě čtyřikrát padne šestka?

Náhodná veličina

Xbinomické rozdělení s parametry
nN
a
p(0,1)
pokud je její pravděpodobnostní funkce definovaná následovně:

p(x)=P(X=x)={(nx)px(1p)nxx=0,1,,n0jinak.

  • XBinomial(n,p)
  • EX=np

    (čím vyšší pravděpodobnost úspěchu, tím větší počet úspěšných pokusů)
  • varX=np(1p)

Pravděpodobnostní funkce:

Pozn.: graf pripomína pravdepodobnostnú funkciu normálneho rozdelenia, viď napr. aproximácia normálnym rozdelením pomocou centrálnej limitnej vety.

Distribuční funkce:

Poissonovo rozdělení

Popisuje počet výskytův nezávislé události za fixní (časový/prostorový/) interval.

Príklad: počet příchozích hovorů do call centra za hodinu; počet narozených dětí v Česku za den
Příklad na poissonovo rozdělení.

Náhodná veličina

XPoissonovo rozdělení s parametrem
λ>0
pokud je její pravděpodobnostní funkce definovaná následovně:

p(x)=P(X=x)={eλλxx!x=0,1,...,0inak.

  • XPois(λ)
  • EX=λ
  • varX=λ
  • λ
    = očekávaný počet výskytů události za daný interval

Pravdepodobnostná funkcia:

image alt

Distribučná funkcia:

image alt

Geometrické rozdělení

Popisuje počet selhání v opakovaném Bernoulliho experimentu před prvním úspěchem.

Příklad: počet selhání než na kostce hodíme šestku; počet přenesených bitů než se stane první chyba (pokud přenášíme pouze do první chyby).

Náhodná veličina

Xgeometrické rozdělení s parametrem
p(0,1)
pokud je její pravděpodobnostní funkce definovaná následovně:

p(x)=P(X=x)={p(1p)xx=0,1,,0inak.

  • XGeom(p)
  • EX=1pp
  • varX=1pp2

Někdy se definuje i jako

p(x)=p(1p)x1 pro
x=1,2,
, podle toho, jestli nás zajímá počet selhání před úspěchem (vyšší) nebo počet pokusů potřebných na dosáhnutí prvního úspěchu (tj. pokus včetně toho úspěšného).

Pravděpodobnostní funkce:
(vľavo definícia "vrátane", vpravo definícia "počet zlyhaní")

Distribučná funkcia:
(vľavo definícia "vrátane", vpravo definícia "počet zlyhaní")

(Diskrétní) rovnoměrné rozdělení

Stejná pravděpodobnost pro každý jev z množiny

A.

Příklad: poslední cifra náhodně vybraného telefonního čísla; házení kostkou

Náhodná veličina

Xdiskrétní rovnoměrné rozdělení na konečné množině
A
pokud je její pravděpodobnostní funkce definovaná následovně:

p(x)=P(X=x)={1AxA,0jinak.

  • XUniform(A)
  • neexistuje všeobecný vzorec pro
    EX
    a ani
    varX

Pravděpodobnostní funkce:

Distribuční funkce:

Spojité rozdělení

Rovnoměrné rozdělení

Přiřazuje všem hodnotám náhodné veličiny stejnou pravděpodobnost. Používá se při generování pseudonáhodných čísel.

Spojitá náhodná veličina X má rovnoměrné rozdělení na intervalu

(a,b), kde parametry
a,b
jsou libovolné reálné čísla, pro které platí, že
a<b
právě tehdy, pokud její hustota pravděpodobnosti má následující tvar:

f(x)={1ba;x(a,b),0;x(a,b)

Distribuční funkce má tvar:

F(x)={0;x<0,xaba;a<x<b,1;xb

  • XR(a,b)
  • E(X)=a+b2
  • var(X)=(ba)212

Funkce hustoty rozdělení:

image alt

Exponenciální rozdělení

Vyjadřuje čas mezi náhodně se vyskytujícími událostmi. Využíva se například v pojistné matematice pri určení času mezi pojistnými událostmi. Pravděpodobnost nástání události nezávisí na přečkané době.

Spojitá náhodná veličina X má exponenciální rozdělení s parametrem

λ>0 právě tehdy, pokud její hustota pravděpodobnosti má následující tvar:

fx(x)={λeλx;x>0,0;x0

Distribučná funkcia má tvar:

F(x)={1eλx;x>0,0;x0

  • XExp(λ)
  • E(X)=1λ
  • var(X)=1λ2

Příklad: (https://is.muni.cz/do/rect/el/estud/prif/ps15/statistika/web/pages/exponencialni.html)

Hustota exponenciálneho rozdelenia:

image alt

Normálne rozdelenie

Normálne rozdělení, někdy nazývané i Gaussovo rozdělení, je najčastejšie používané rozdelenie. Má mnoho významných teoretických vlastností a z hľadiska aplikácie býva vhodné na vyjadrenie náhodných veličín, ktoré je možné interpretovať ako aditívny výsledok veľa nezávislých vplyvov (chyba merania, odchýlka rozmeru výrobku od požadovanej hodnoty, atď).

Normálne rozdelenie pravdepodobnosti s parametrami

μ (střední hodnota) a
σ2
(směrodatná odchylka), kde
σ
má hustotu:

f(x)=1σ2πe(xμ)22σ2

  • XN(μ,σ2)
  • E(X)=μ
  • var(X)=σ2


Rozdelenie

N(0,1) sa označuje ako normované alebo štandardizované normálne rozdelenie. Toto rozdelenie má teda hustotu:

f(x)=12πex22

Grafy hustôt normálneho rozdelenia:

image alt

Grafy odpovedajúcich distribučných funkcií:

image alt

Transformáciou náhodnej veličiny

X s rozdelením
N(μ,σ2)
na náhodnú veličinu

U=Xμσ

dostaneme náhodnú veličinu s normovaným (standardizovaným) normálním rozdělením

N(0,1) a distribučnou funkciou
F(u)
.

Zmenšování parametru

μ posouvá rozdělení po ose
x
vlevo, zvětšování ho posouvá vpravo. Čím větší je parameter
σ2
, tým víc plochá je křivka (hodnoty se víc liší od průměru). Standardizací se od náhodné veličiny odečítá její střední hodnota
μ
, čímž se křivka posune na x-ové ose na bod 0.

Pre hodnoty

F(u) distribučnej funkcie normovaného normálneho rozdelenia platí

F(u)=1F(u)

dostaneme náhodnou veličinu s normovaným (standardizovaným) normálním rozdělením

N(0,1).

Pre kvantily normovaného normálneho rozdelenia platí

u1P=uP

kde

0<P<1.

Tieto vlastnosti plynú zo stredovej symetrie rozloženia. Pre ilustráciu si môžeme za

u pri výpočte hodnoty distribučnej funkcie dosadiť číslo 0,5. Po odčítaní hodnoty
F(0,5)
od 1 dostaneme pravdepodobnosť, ktorá je vďaka stredovej symetrii rovnaká ako
F(0,5)

Ak má náhodná veličina

X normálne rozloženie
N(μ,σ2)
, jej distribučnú funkciu je možné vyjadriť ako

F(X)=F(xμσ)

Chi-kvadrát rozdělení

Rozdělení se používá při určování intervalových odhadů neznámých parametrů a při testování hypotéz, například když chceme určit, zda množina dat vyhovuje dané distribuční funkci - viz. https://www.youtube.com/watch?v=2QeDRsxSF9M.

Rozdelenie chi kvadrát, taktiež nazývané aj Pearsonovo rozdelenie, s

n stupňami voľnosti je spojité rozdelenie pravdepodobnosti. Hustota pravdepodobnosti rozdelenia má tvar

f(x)={0;x0,1Γ(n2)2n2ex2xn21;x>0

  • Xχ2(n)
  • E(X)=n
  • var(X)=2n

Grafy hustôt chi kvadrát rozdelenia:

k značí počet stupňov voľnosti

Logaritmicko-normálne rozdelenie

Logaritmicko-normálne rozdelenie s parametrami

μ a
σ
je spojité rozdělení pravděpodobnosti jednorozmernej reálnej náhodnej veličiny
X
také, že náhodná veličina
ln(X)
má normálne rozdelenie so strednou hodnotou
μ
a smerodajnou odchýlkou
σ
.

Hustota logaritmicko-normálneho rozdelenia má tvar

fx(x)=1xσ2πe(lnxμ)22σ2,x>0

  • XLN(μ,σ)
  • EX=eμ+σ2/2
  • varX=(eσ21)e2μ+σ2

Hustoty logaritmicko-normálneho rozdelnia:

image alt

Studentovo t-rozdelenie

Studentovo rozloženie je spojité rozdelenie pravdepodobnosti, ktoré sa najčastejšie používa pri určovaní intervalových odhadov a pri testovaní štatistických hypotéz.

Nech

X je náhodná veličina a
n
je prirodzené číslo. Potom táto náhodná veličina
X
Studentovo rozloženie (taktiež nazývané aj t-rozloženie) s
n
stupňami voľnosti, pokiaľ jej hustota pravdepodobnosti má nasledovný tvar

fn(x)=Γ(n+12)Γn2nπ(1+x2n)n+12

  • Xt(n)
  • EX=μ
  • varX=σ2

Stupne voľnosti reprezentujú počet nezávislých údajov, na ktorých je založený parametrický odhad.

Funkcia hustoty Studentovho rozdelenia:
(

v značí počet stupňov voľnosti)
image alt

Centrální limitní věta (CLV, Central Limit Theorem)

Centrální limitní věta je klíčové matematické tvrzení, které popisuje pravděpodobnostní chování výběrového průměru pro velké vzorky a umožňuje tak sestrojení intervalových odhadů, a to nejen pro normálně rozdělené náhodné veličiny.

Lindeberg-Lévy CLV

Mějme posloupnost

X1,,Xn nezávislých, stejně rozdělených náhodných veličin (a.k.a. náhodný výběr), které mají konečnou střední hodnotu
μ
a rozptyl
σ2>0
. Pak asymptoticky pro
n
platí:

(1)X=1ni=1nXiN(μ,σ2n)(2)nXμσ2N(0,1)(3)i=1nXinμnσ2N(0,1)

Komentář: bez ohledu na to, z jakého rozdělení máme náhodné výběry, výběrový průměr bude mít (pro dostatečně velké

n) asymptoticky normální rozdělení s určitými parametry (viz.
(1)
výše). Po vhodné normalizaci výběrového průměru dostaneme asymptoticky standardní normální rozdělení
N(0,1)
(viz.
(2)
a
(3)
výše).
Díky CLV nepotřebujeme vědět, z jakého rozložení pocházejí naše hodnoty. Pokud máme hodnoty výběrového průměru (které dle CLV budou mít normální rozložení), můžeme z nich počítat confidence intervaly, dělat t-testy (kde se ptáme, jestli jsou nějaké rozdíly mezi výběrovými průměry dvou vzorků), ANOVA a další statistické analýzy, které počítají s výběrovým průměrem.

:bulb: Centrální limitní věta funguje dokonce i tehdy, když rozdělení původní náhodné veličiny není spojité, ale diskrétní.

Zjednodušená interpretace CLV: pokud je rozdělení pravděpodobnosti náhodné veličiny

X normální, pak je i rozdělení průměru pozorovaných hodnot normální (a to i pro
n=1
). Pokud však rozdělení pravděpodobnosti náhodné veličiny
X
normální není, pak je rozdělení průměru pozorovaných hodnot přibližně normální, když
n
je dostatečně velké
(matematicky řečeno, pro
n
jdoucí do nekonečna).

Minimální velikost souboru pro výpočet průměru (Lindeberg-Lévy):

  • n30
    v případě rozdělení pravděpodobnosti podobných normálnímu;
  • n100
    pro rozdělení, která nejsou podobná normálnímu

(názory na minimální hodnoty

n se liší)

Teorie a zároveň princip použití CLV pro výpočet pravděpodobnosti:


MV013, lecture 4
cdf = cumulative distribution function (distribuční funkce)



MV013, lecture 4

Příklad výpočtu s použitím CLV


MV013, lecture 4

:bulb: Continuity correction (oprava na spojitost) se používá při aproximaci diskrétního rozdělení spojitým.
V případě uvedeném výše, kde jsme v prvním případě (spojité) spočítali, že pravděpodobnost, že ze 100 hodů padne nanejvýš 15 šestek (P(X < 16)), je 0.429 (vzali jsme distribuční funkci a spočítali F(16)). V druhém případě jsme se dívali na diskrétní pravděpodobnost P(X

15), tzn. F(15) = 0.327, což je jiný výsledek než 0.429. Pro tento případ využijeme continuity correction a spočítáme F(15.5) = 0.377.

Pro diskrétní rozdělení

P(Xx)=P(X<x+1). Pokud platí podmínky Moivre-Laplaceové CLV, dá se výše uvedené aproximovat pomocí
P(Y<x+0.5)

Bodové a intervalové odhady, princip věrohodnosti

Cílem odhadu je určení neznámého parametru náhodné veličiny

X na základě informace obsažené ve výběrovém souboru (realizace náhodné veličiny, datasetu). Zajímá nás především hodnota a přesnost odhadu.
Většinou chceme odhadnout průměr nebo rozptyl (variance).
Například chceme odhadnout průměrný plat v ČR. Abychom měli přesnou hodnotu, museli bychom znát plat každého člověka v ČR, což je nemožné. Učiníme proto náhodný výběr vzorku populace, zjistíme jejich platy a na základě toho vypočítáme (odhaneme) průměrný plat v celé ČR.

Nestranný odhad (unbiased estimator) parametru

θ je odhad, jehož střední hodnota je rovna θ a to pro každou hodnotu, které může tento parametr ze své definice nabývat. Nestrannost odhadu je celkem logickým omezením, které nám říká, že tento odhad má vzhledem ke střední hodnotě nulové vychýlení.

Odhad je unbiased, pokud se průměrně rovná pravé hodnotě odhadovaného parametru.
https://stats.stackexchange.com/a/31047

Nejlepší nestranný odhad má ze všech nestranných odhadů nejmenší rozptyl (variabilitu).

Příklad nestranného odhadu: výběrový průměr jako odhad střední hodnoty (parametru

μ) normálního rozdělení.

Konzistentní odhad (consistent estimator) odhad je konzistentní, pokud se zvětšujícím se vzorkem konverguje k pravé hodnotě odhadovaného parametru. To be slightly more precise - consistency means that, as the sample size increases, the sampling distribution of the estimator becomes increasingly concentrated at the true parameter value.
https://stats.stackexchange.com/a/31047

Bodový odhad (point estimate)

Parametr odhadujeme pomocí jedné hodnoty, která se snaží hodnotu parametru aproximovat.




MV011

Příklad použití je stejný, jako uvedený výše s odhadováním platu.

Intervalový odhad (range estimate)

Parametr odhadujeme pomocí intervalu, který daný parametr s velkou pravděpodobností obsahuje. Délka intervalu vypovídá o přesnosti odhadu.

Příklad: Chceme odhadnout průměrnou výšku lidí v České republice. Proto učíníme několik náhodných výběrů lidí (např. 10x vybere náhodně 10 lidí). Z techto vybraných skupin pro každou vypočítáme výběrový průměr (sample mean). Tyto výběrové průměry nám dávají "confidence interval", který říká, že průměr celé populace s velkou pravděpodobností spadá do confidence intervalu. Viz. https://youtu.be/ENnlSlvQHO0

Interval spolehlivosti (konfidenční interval) pro parametr

θ se spolehlivostí
1α
, kde
α[0,1]
, je dvojice statistik
(Td(X),Th(X))
taková, že

P(Td(X)θTh(X))=1α

  • Intervalový odhad je konkrétní realizace intervalu spolehlivosti.
  • Koeficient
    α
    nazýváme hladinou významnosti.
  • Pro oboustranný intervalový odhad platí
    P(θTd(X))=P(θTh(X))=α2
  • Pro levostranný (dolní) intervalový odhad platí
    P(Td(X)θ)=1α
  • Pro pravostranný (horní) intervalový odhad platí
    P(θTh(X))=1α


Tvorba intervalového odhadu

  1. Zvolíme vhodnou výběrovou charakteristiku
    T(X)
    jejíž rozdělení závislé na
    θ
    známe.
  2. Určíme
    α
    a kvantily
    tα2
    a
    t1α2
    z
    T(X)
  3. Stanovíme meze pro
    θ
    z podmínky
    tα2T(X)t1α2
  4. Profit!

Příklad: intervalový odhad střední hodnoty

μ normálního rozdělení s neznámým rozptylem se spolehlivostí
0.95
. Máme vzorek velikosti
n
s výběrovým průměrem
X¯
a výběrovým rozptylem
S2
.

  1. Zvolíme statistiku
    T(X)=XμSn
  2. Z vlastností Studentova rozdělení víme:
    T(X)t(n1)
  3. Dosadíme:
    P(tα2(n1)X¯μSnt1α2(n1))=0.95
  4. Využijeme
    tα2(n1)=t1α2(n1)
    , tedy:
    P(t1α2(n1)X¯μSnt1α2(n1))=0.95
  5. Vytáhneme vše z prostředku:
    P(X¯Snt1α2(n1)μX¯+Snt1α2(n1))=0.95
  6. Vyčíslíme.

Princip věrohodnosti (likelihood principle)

Maximum likelihood estimate

MLE se snaží na základě jednotlivých data pointů odhadnout distribuci datasetu.

Log-likelihood funkce a likelihood funkce mají maximum ve stejném bodě, s log-likelihoodom se lépe pracuje.

Alternatívní metody odhadování parametrů:

  • method of moments
  • ordinary least-squares method

Obě metody jsou neparametrické -> MLE využívá informáci o rozdělení pravděpodobnosti a je most efficient estimator.
Nevýhody: složitější výpočet, potřeba řešit předpoklady o rozdělení (v případě potřeby se dá použít CLV).

Statistická inference testování hypotéz

Cílem testování hypotéz je oveřit, jestli data nepopírají předpoklad (hypotézu).

Nulová hypotéza

H0
Alternativní hypotéza
H1

Alternatívní hypotéza je to, co nás ve skutečnosti zajímá.

p-value je pravděpodobnost, že při platnosti
H0
nabývá testová statistika
T
své stávající hodnoty anebo hodnot ještě extrémnějších
Zároveň je to taky nejmenší hladina významnosti, při které ještě zamítáme
H0

Pokud je
p
-value menší než
α
, zamítáme
H0

Pokud je
p
-value větší než
α
, nezamítáme
H0

:movie_camera: StatQuest - p-value explained

Chyby v testovaní hypotéz

Chyba 1. typu nastane, když odmítneme

H0 navzdory tomu, že ve skutečnosti platí.

Chyba 2. typu nastane, když neodmítneme

H0 navzdory tomu, že ve skutečnosti neplatí.

H0
platí
H1
platí
odmítáme
H0
:x: chyba 1. typu :heavy_check_mark: OK
neodmítáme
H0
:heavy_check_mark: OK :x: chyba 2. typu


Parametrické testy

ANOVA

ANOVA (ANalysis Of VAriance) je parametrickým testem testujícím zda na hodnotu náhodné veličiny má statisticky významný vliv hodnota některého znaku, který se u náhodné veličiny dá pozorovat.

Neparametrické testy

Motivací pro neparametrické testy je fakt, že pro parametrické testy je třeba splnit podmínky (normalita, homogenita, …). Nevýhodou neparametrických je však slabší test (tedy zamítnutí

H0 je méně pravděpodobné).

Lineární regresní model

Linear regression model je matematická metoda používaná pro proložení souboru bodů v grafu přímkou.
:movie_camera: StatQuest - Linear Regression

Příklad lineární regrese

Least squares estimate (metoda nejmenších čtverců)

Lineární regrese představuje aproximaci daných hodnot přímkou metodou nejmenších čtverců. Zkusíme body proložit přímkou a od každého z nich vypočítat vzdálenost k přímce (tato vzdálenost se nazýva "residual"). Toto opakujeme tak dlouho, dokud suma "residuals" není nejmenší.

Is this a linear regression model?


Ano, toto je linear regression model.
Je to model
Yi=β0+β1 logxi+ei

Lineárni model znamená, že je lineární v parametrech
βj
, ne nutně v regressorech
xi
.
MV013-11.pdf slide 23

Outliers and leverage observations

Outlier point (odlehlý) je bod, který se značně liší od ostatních bodů a zároveň nesedí do našeho modelu.

  • Například. člověk co měří 3 metry a váží 50 kilo bude outlier.
    Leverage point (pákový) je bod, který se také značně liší od ostatních hodnot, ale má velký vliv na odhad našich parametrů.

    Skupina 1 - jsou to outliers, ale ne leverage points
    Skupina 2 - Leverage points, ale nejsou to outliers
    Skupina 3 - Leverage points a zároveň outliers.

Model with outlier and without outlier


Na grafu je znázorněn model s outlier bodem (outlier bod je označen modrou barvou a model tlustou čárou). Model s tentou čárou nebere tento bod v potaz a je vyznačen tenkou čárou.

Linear regression - final remarks
Nevýhody:

  • Velmi silné assumptions
    • Prakticky odhadujeme jen na základě dat
  • Citlivé na leverage body a outliers
    • To je zřejmé, jeden leverage/outlier bod nám změní celý model
  • Je nestabilní pro silně korelované regresory.
    • ?
  • Nedokáže se vypořádat s chybějícími hodnotami.
    Výhody:
  • Jednoduchá interpretace
  • Přímá kvantifikace vlivu jednotlivých regresorů na konečný model.
    • Dokážeme vypočítat jak jednotlivý bod ovlivňuje konečný model.
  • Many generalizations
    • ?
  • Dokáže pracovat s numerickými i kategorickými proměnnými.
  • It does not suffer from the curse of dimensionality
    • ?