# 今日から使える統計解析 ## 第1章 ## 1.1 統計学って何だろう? ### 統計学とは - 数値の集団から、その集団についてどのような情報を引き出せるかを研究する数学 ### 統計学の2本の柱 - **記述統計** 数値グループの平均値やバラツキの大きさなどを調べたり、図やグラフを書いて数値のグループの性質を説明する。 例) 社会現象についてマスコミに公表する - **推測統計** 既知の標本から未知の母集団を推測するという方針の数値の処理の仕方 - **標本** ... たまたま取り出された一部の見本 - **母集団** ... その背後にある数値全体 ## 1.2 代表する値はどれ? - **モード(最頻値、並数、並値)** 一番出現回数が多い値(**度数、頻度**)を代表値にする ⇨ 中庸を逸した代表が選ばれる危険性あり(下記の`b.指数分布`の場合など) - **メジアン(中央値)** 数値を 降順 or 昇順 に並べて、中央に位置した値を代表値にする ※中央に並んだ2つの値が異なる場合は、その相加平均をとる - **相加平均(算術平均)** n個の値を全て加えて、nで割ったもの。一般的に「平均」といえばこれをさす。 ⇨ 総合点だけで平均値が決定(バランスは無視) - **相乗平均** あい乗じてから数値の個数で累乗根をとって、作り出す ⇨ バランスも評価対象 ## 1.3 ばらつきの大きさを表すには? - **レンジ** R(レンジ)= 最大値 - 最小値 ⇨ 2つの値しか使ってないので簡易だが粗雑さがある - **平均偏差** **絶対値**をとることで個々の値のそれぞれが中心的な値(相加平均)からどれだけ離れているか求めて、それらの値を平均する。 - **標準偏差** **2乗**することで個々の値のそれぞれが中心的な値(相加平均)からどれだけ離れているか求めて、それらの値を平均し、全体にルートをとる。 **σ**(シグマ)で表す。 ## 1.4 ばらつきの型にも注目 これまで紹介した以下の要素だけでは、数値のグループの実体を把握することはできない! - **数値の個数** - **グループの代表値**:普通は相加平均 - **数値のばらつきの大きさ**:普通は標準偏差   ⭐️<font color="Red">**分布の型**</font>にも注目する必要がある! ⇨ 平均値も代表値も同一のグループ(以下)でも、<br>  棒グラフでは左右反対なのがわかる! 例) <img src="https://i.imgur.com/r7Yh4Iw.png" width = 300>   <img src="https://i.imgur.com/0dmHEQb.png" width = 500> ### 分布の型  **a. 一様分布** 例)サイコロの6種の目の出現確率 **b. 指数分布** 👀[ジップの法則](http://www2.chokai.ne.jp/~assoonas/UC203.HTML) 例)英文に置けるローマ字の出現率、都市の人口 ⇨ モードで代表値を選ぶと中庸を逸してしまう **c. 正規分布** (ガウス分布) 左右対称の釣鐘状の曲線の形で、統計理論の中心となる。 基本的な特徴は以下。  **d. 偏った正規分布** 正規分布が左右のどちらかに偏った分布。 **e. 二こぶ型の正規分布** 平均値が異なる2つの正規分布を加え合わせるとできることが多い。 例)同世代の男性、女性が同人数混じり合った集団 ⇨ 値を2つのグループに分けて(=**層別**)検討すべし! **f. 離れ小島のある正規分布** 離れ小島を作っている値が異分子。 - 異分子の発生理由の解明する - 異分子を除去してから残りの値のグループの性質を吟味する ## 1.5 最初の例の分布の型は? - 数値グループ <img src="https://i.imgur.com/g9bcCIU.png" width=300> - 性質 <img src="https://i.imgur.com/ftZ4acH.png" width=300> **ヒストグラム**(=**柱状グラフ**)(※)で書いてみると、正規分布に近い! (※)横軸:数値、 縦軸:出現頻度 で書いた棒グラフ <img src="https://i.imgur.com/r7ooQkX.png" width=300> ## 1.6 データ処理のミニチュア・モデル [ 例題 ] 100人の中学生男子生徒の身長データに対して、以下を求める - 平均値 - 標準偏差 - 分布の型(ヒストグラムを書く)   [ やり方 ] **0. データを加工する(計算の前処理)** データ数が多いと、単純作業でもミスが増えるので加工する `各データの3桁目の1をとって2桁にする` <img src="https://i.imgur.com/Vlwpcy0.png" width=300> ##### ※他にも下記のように前処理は色々ある! `例1)小数点以下の桁数を揃える` <img src="https://i.imgur.com/YfSuNjZ.png" width=300> `例2)四捨五入する`([JIS丸め](https://kakuyomu.jp/works/1177354054881541562/episodes/1177354054883037974))     **1. ヒストグラムを書く** = データの全貌がわかる (1) クラス(階級)の幅を決める(JISでは5~10つの区分を推奨) (2) クラス別に分類して棒グラフを書く <img src="https://i.imgur.com/ZpUpUTI.png" width=200> <img src="https://i.imgur.com/mDkj6wJ.png" width=200>     **2. 平均値を求める** ###### tags: `統計`
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up