# 統計学 ---- # 公平な判定には検定が必要 - 仮説を立てておき、確かさを判定する ### 検定作業 - 5%以下は、小さい確率とみなす - 5%より大きければ、小さい確率とは認めない 判定が間違う確率(5%)を危険率あるいは有意水準という ★「5%以下なら仮説は間違いだ」と判断することはできる。「5%より大きければ仮説が正しい」とはならない。5%より大きければ、あくまでも**仮説を捨てる根拠にはならない**というだけ。 →**仮説の正しさを積極的に証明するのに検定は使えない** (データを増やして検定し続けても仮説が捨てられないのであれば、仮説の確からしさは間接的に強まっていく) ## t分布は検定にも使える ### t検定 - 仮説を立てる - データを収集する - 収集したデータからtの値を計算する ...① - 自由度をもとに、t分布表の0.05%(危険度5%)に相当する値を探す ...② - ①と②を比較する #### 推定 - tの値が信頼度(95%)で含まれる区間を求める #### 検定 - tの値が5%にかからないか否かを判定する ## 食い違いの大きさを検定する(カイ2乗検定) #### 食い違い - 実現値から期待値を引く - 引いた値を2乗してマイナスの符号を消す - その値を期待値で割る - 各区分ごとの食い違いを合計して、全体としての食い違いの大きさを求める - ---- (2020-01-16) # 正規分布 正規分布は**ノーマル**である。 自然現象や社会現象など、正規分布はやたらに多い。 #### なぜ正規分布は多いの? - 身長や運動能力をはじめ、ほとんどの現象は、たくさんの要因によって、右へいったり左へいったりしながら作り出されているから。 ### 例えば... 8枚のコインを投げるとき、表がn回出る確率は? グラフに表すと... ![](https://i.imgur.com/5JixCyt.png) ↑これは**二項分布**と呼ばれる。 正規分布は、二項分布の究極の姿。 #### なぜ二項分布とよばれるの? - 2通り(二項)の結果を伴う現象を表すものだから ## 中心極限定理 #### 中心極限定理って何? - どんな分布でも、その分布から値を取り出して平均値(合計値)を作る作業を繰り返すと、作り出された値は正規分布するという性質のこと。 #### 例えば... 乱数表から取り出した10個ずつの値の合計の分布を見てみると、 ![](https://i.imgur.com/Lg9wfjF.png) ![](https://i.imgur.com/66lVZUx.png) 正規分布に近い印象のグラフが出来上がる。 これが**中心極限定理**の表れ。 ## 確率分布 #### 確率分布って何? - コインの例のように、確率の合計が1である曲線(確率密度曲線)で表される確率の分布のこと。 ## 正規分布の性質 確率分布では、曲線の中に、1だけの確率が均一な密度で詰まっていた。 なので、ある事象が起きる確率は、その事象が正規分布の曲線の内側に占める面積で表される。 ``` N(μ, σ^2) μ: 平均値 σ: 標準偏差 の正規分布の略記 ``` とくに、**N(0, 1)**は**標準正規分布**という名前がついている。 平均値μの片側にσの幅を切り取ると、その幅の中に、0.3413の面積が含まれる。 どのような正規分布でも(μとσの値に関わらず)同じ。 ![](https://i.imgur.com/rtT1rpW.png) 切り取る幅の大きさにつれて、↓のように決まる。 ![](https://i.imgur.com/mTwlr1v.png) #### 3σという感覚 平均値の両側にσの3倍ずつの幅をとると、その範囲に99.73%が含まれる。 はみ出すのは0.3%なので、珍事。 このような珍事がおきたら、無視するか、要注意ととらえるかどちらか。 ## 正規分布どうしの算術 結論、足し算しても引き算しても、正規分布になる! ###### tags: `statistics`