--- tags: スキル定義委員会, データ加工, 推定・検定, データ理解 --- # スキル定義委員会-082 ## DE-82 データ加工 - 前処理 ⭐️ 🔥必須🔥 ### Q.数十万レコードのデータに対して、NULL値や想定外・範囲外のデータを持つレコードを取り除く、または既定値に変換できる ```python= import pandas as pd # Load the data into a pandas dataframe df = pd.read_csv("data.csv") # Replace null values with default value (-1) df.fillna(-1, inplace=True) # Replace values outside a specified range with default value (-1) df[(df < lower_bound) | (df > upper_bound)] = -1 # Remove records with default values df = df[df.col1 != -1] # Save the cleaned data to a new file df.to_csv("cleaned_data.csv", index=False) ``` - [欠損値処理](https://note.nkmk.me/python-pandas-nan-judge-count/) - ------------------------------------------------------------------------ ## DS-82 推定・検定 - 推定・検定 ⭐️⭐️ 🔥必須🔥 ### Q.p値だけでは仮説やモデルの正しさを評価できないことを理解し、p値以外のアプローチ(信頼区間、信用区間、ベイズファクターなど)と併せて透明性の高いデータ分析や結果の報告ができる #### P値 帰無仮説に対する証拠の強さを示すだけで、仮説やモデルの精度や妥当性に影響を与えうる他の要因を考慮していないため、P値だけでは仮説やモデルの正しさを評価することはできない。仮説やモデルの正確さを評価する際に考慮する必要がある要因には、以下のようなものがあります。 1. **サンプルサイズ** サンプルサイズが小さいとP値の信頼性が低くなるため、サンプルサイズが仮説やモデルから導かれる結論をサポートするのに十分な大きさであることを確認することが重要である。 1. **多重比較** 複数の仮説やモデルを検証した場合、偶然に有意な結果が得られる可能性が高くなります。このため、仮説やモデルの精度を評価する際には、多重比較を補正することが重要である。 1. **モデルの適合性** 仮説やモデルがデータによく適合していても、変数間の基本的な関係を正確に反映していなければ、不正確である可能性がある。モデルの適合度は、残差、R2乗、予測精度などの指標を用いて評価する必要があります。 1. **仮定** 仮説やモデルの妥当性は、基礎となる仮定が満たされているかどうかに依存する。 P値が低いということは、帰無仮説が真である可能性が低いことを示唆していますが、対立仮説を支持する証拠の強さや質を示しているわけではありません。 * P値は仮定に基づく P値は、基礎となるデータおよびそれを分析するために使用される統計モデルに関するある種の仮定に基づいている。これらの仮定が満たされない場合、P値は正確でない可能性がある。 P値は証拠の強さを測定するものではありません。P値は、帰無仮説が真であると仮定して、データを観測する確率を示すだけである。帰無仮説を支持する、あるいは反対する証拠の強さを直接測定するものではありません。 * P値は多重検定を考慮しない 複数の仮説やモデルを検証した場合、タイプIエラー(偽陽性)を起こす確率が高くなる。その結果、単に偶然に起因する有意な結果を見出すことがある。 * P値は誤解を招く可能性がある P値は誤解を招いたり、過剰に解釈されたりして、誤った結論に至ることがある。例えば、低いP値(例えば、p<0.05)は、必ずしも強い関係を示すものではなく、関係が統計的に有意であることを示すに過ぎない。 さらに、p値はサンプルサイズに影響され、仮説の事前確率、効果の大きさ、交絡変数の可能性など、他の重要な要因は考慮されない。また、何をもって「統計的有意性」とするかについて普遍的に合意された閾値がないため、p値の解釈は主観的なものになりかねない。 したがって、仮説やモデルの正しさを評価するためには、p値だけでなく、信頼区間、効果量、ベイズ分析など、他の方法を用いることが重要である。 p値だけに頼らず、透明性のあるデータ解析と結果を提示するための代替方法がいくつかある。 1. **信頼区間** 信頼区間は,指定された信頼度(例えば,95%)で真の母集団パラメータを含むと思われる値域を提供する.信頼区間は,推定効果量の精度と不確実性をより明確に示す. 2. **信頼性区間(ベイズ信頼区間)** 事前知識と観測データに基づいて,真の値を含むと思われる母集団のパラメーターの値の範囲を提供する.ベイズ信頼区間は、事前情報を取り入れ、より柔軟な仮説検定の枠組みを提供することにより、p値を補完するために使用することができる。 1. **ベイズ係数** 観測データと事前知識に基づいて、ある仮説を他の仮説より支持する証拠の強さを示す尺度である。異なる仮説に対する証拠のより透明で客観的な評価を提供することにより、p値を補完するために使用することができる。 1. **効果の大きさ** 効果量とは、2つの平均値の差や2つの変数間の相関など、効果の大きさを表す尺度である。効果の大きさは、信頼区間の有無にかかわらず表示することができ、効果の強さと方向性をより直感的に理解することができる。 1. **Visualizations** 棒グラフ、散布図、箱ひげ図などの視覚化により、データや結果を明確かつ直感的に表示することができる。また、ビジュアル化することで、データの外れ値、パターン、関係性を特定することができる。 1. **モデル診断** 残差プロット、レバレッジプロット、影響プロットなどのモデル診断は、統計モデルの適合の質を評価し、モデルの仮定の違反を特定するために使用することができます。 1. **再現性(Replicability)** 再現性とは、科学研究の重要な原則であり、同じデータと方法を用いて、他の人が研究結果を再現できる能力を指す。データ、手法、結果を明確かつ詳細に記述し、データとコードを公開することで、解析と結果の透明性と再現性を高めることができます。 これらの異なるアプローチを組み合わせることで、仮説やモデルのより完全で透明性のある評価を提供することができ、限界があり誤解される可能性のあるp値のみに頼ることを避けることができます。 ------------------------------------------------------------------------ ## BZ-82 データ理解 - データ理解 ⭐️⭐️⭐️ 🔥必須🔥 ### Q.分析プロセス全体を通して、ビジネス観点での妥当性をチェックし、データから得られた示唆が価値ある知見であるかを都度判断できる 妥当性のチェックは、結果の品質と信頼性を保証するために、分析プロセスにおける重要なステップです。以下は、分析において妥当性をチェックすることが重要である理由です。 * エラー(偽陽性・偽陰性)回避 有効性のチェックは、欠損値、外れ値、データ入力エラーなど、結果の正確性と信頼性に影響を与える可能性のあるデータのエラーを特定し、修正するのに役立ちます。 * バイアス 選択バイアス、測定バイアス、交絡など、分析におけるバイアスの原因を特定し、最小化するのに役立つ。 * 必要十分条件の確認 多くの統計検定では、データの分布や変数間の関係について仮定します。妥当性のチェックは、これらの仮定が満たされ、結果が意味のあるものであることを保証するのに役立つ。 * 透明性・再現性の向上 妥当性をチェックすることで、結果の透明性・包括的な評価が可能となり、他の人が分析結果を理解し、再現することが容易になります。 * 結果に対する信頼性の向上 妥当性のチェックを徹底することで、結果に対する信頼性を高めることができます。これは、結果に基づいて意思決定や結論を下す際に特に重要なことです。 妥当性のチェックの例としては、欠損値、外れ値、データの正規性、変数間の関係の直線性、観測値の独立性のチェックなどがある。 分析過程で妥当性を確認し、得られた知見が価値あるものかどうかを判断する場合、いくつかのポイントがある。 1. **Data quality** 分析に使用するデータが正確であり、完全であり、質問内容との関連性が高いことを確認する。データの出所、偏りやエラーの可能性、データの欠落や不完全性などを考慮する。 2. **Model validity** 分析に使用する統計モデルが、データおよび質問に対して適切であることを確認する。モデルの前提条件、結果の頑健性、外れ値や異常値の可能性を検討する。 3. **サンプルサイズ** データのサンプルサイズを検討し、正確で信頼できる結果を提供するのに十分な大きさであることを確認する。変動性の増加や統計的検出力の低下など、サンプルサイズが小さいことによる結果への潜在的な影響も考慮する。 4. **測定誤差** 分析に使用した測定値が正確かどうか、系統的な誤差がないかどうかをチェックする。 5. **モデルの適合性** データ分析に使用した統計モデルがデータによく適合しているか、また質問内容に合っているかをチェックする。 6. **交絡の有無** 結果に影響を与える可能性のある交絡変数があるかどうかを確認し、ある場合は解析の中で調整する。 7. **再現性** 分析結果が再現可能であること、時間経過や異なるデータセット間で一貫性があることを確認する。ランダムな変動や偶然性が結果に及ぼす潜在的な影響も考慮する。 8. **Context** データおよび結果の文脈を考慮し、結果が現実世界の文脈に関連し、意味を持つことを確認する。結果の潜在的な意味合いや応用を検討し、結果の妥当性に影響を与えうる限界や要因を検討する。 調査結果の妥当性に自信を持ち、データから得られたものが、意思決定や今後の研究の指針として利用できる貴重な知見であるかどうかを判断することができます。 ------------------------------------------------------------------------ # Quote - [スキル定義委員会 from データサイエンティスト協会](https://twitter.com/jdss_skill) <style> .att0 {color: #eb4034;} .att1 {color: #3465eb;} </style>
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up