--- tags: スキル定義委員会, データ加工, 推定・検定, アプローチ設計 --- # スキル定義委員会-079 ## DE-79 データ加工 - フィルタリング処理 ⭐️ ### Q.正規表現を活用して条件に合致するデータを抽出できる(メールアドレスの書式を満たしているか判定をするなど) 正規表現を利用することで、特定の条件に一致するデータを抽出することができます。この方法は、例えばメールアドレスの書式を検証するために使用することができます。 正規表現は、文字列内の特定のパターンを表すための表現方法です。正規表現を利用すると、特定の条件に一致するデータを検索することができます。 例えば、メールアドレスの書式が正しいか判定するために、次のような正規表現を利用することができます: ``` ^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$ ``` この正規表現は、メールアドレスが「ユーザー名@ドメイン名.拡張子」という形式を満たしていることを検証します。このような正規表現を利用することで、指定された条件に合致するデータを抽出することができます。 - [正規表現について](https://qiita.com/luohao0404/items/7135b2b96f9b0b196bf3) - [正規表現チェッカー(python)](https://miyabikno-jobs.com/it/tool-python-rechecker/) ------------------------------------------------------------------------ ## DS-79 推定・検定 - 推定・検定 ⭐️ ### Q.片側検定と両側検定の違いを説明できる 片側検定と両側検定は、統計学における仮説検定法の2つの異なるタイプである。2つのグループまたはデータセットの間に有意差があるかどうかを判断するために用いられる統計検定である。両者の違いは、<span class="att0">対立仮説の方向</span>にあります。 ### <span class="att0">片側検定</span> * **仮説が効果の方向を予測する場合、例えば、母集団の平均がある値より大きいか小さいかを予測する場合に使用されます。片側検定では、臨界領域は正または負のどちらか一方向にのみ位置します。** * (例):新薬がプラセボより効果的かどうかを判断するのに片側検定が使われるかもしれませんが、効果が低いかどうかを判断するのには使われません。片側検定では、臨界値が正または負のどちらか一方向に計算され、検定統計量がその臨界値と比較されます。 ### <span class="att1">両側検定</span> * **仮説が効果の方向を予測しない場合に使用されます。両側検定では、臨界領域が各方向に2分割され、母平均が指定された値と異なるという仮説の検定に使用されます。** * 効果の方向があらかじめわかっているときは両側検定よりも強力ですが、方向がわからないときはあまり強力ではありません。両側検定は,より保守的であるが,効果の方向についてより多くの情報を提供することができる. * 有意差がある場合にそれを検出する確率が低いため、片側検定よりも保守的であると考えられています。しかし、<span class="att0">偽陽性</span>を検出する確率も低いので、誤った結論につながる可能性があります。片側検定と両側検定の選択は、研究課題と研究の目標に依存します。 - (例):両側検定では、2つのグループの間に差があるかどうかを、その差が正か負かに関係なく判定するために使用されます。両側検定では、臨界値は正と負の両方向で計算され、検定統計量は両方の臨界値と比較される。 片側検定の方が両側検定よりも臨界域を小さくできるので強力ですが、第1種の過誤のリスクも高いことに注意する必要があります。 第1種の過誤は、帰無仮説が実際には真であるのに棄却される場合に発生します。 結論として、片側検定と両側検定の選択は、特定の研究課題と検証される仮説に依存します。仮説が効果の方向を予測する場合、片側検定が適切かもしれませんし、仮説が効果の方向を予測しない場合、通常両側検定がより適切です。片側検定と両側検定の選択は、研究課題と利用可能な情報によって決まります。 ------------------------------------------------------------------------ ## BZ-79 アプローチ設計 - 分析アプローチ設計 ⭐️⭐️⭐️ ### Q.複数のアプローチの組み合わせでしか解けない課題であっても、その解決までの道筋を設計できる 複数のアプローチの組み合わせが必要な問題を解決するためには、次のような手順が考えられます。 1. **問題の特定と定義** 問題を明確にし、その根本的な原因や制約を理解する。 1. **情報・データを収集** 意思決定プロセスをサポートするために、関連するデータと情報を収集する。 1. **可能な解決策を特定** 収集した情報と制約条件に基づき、可能性のある解決策をリストアップする。 数学的モデリング、シミュレーション、実験などの手法を組み合わせるなど 1. **解決策を評価と優先順位** 実現可能性、コスト、影響に基づき、可能性のある解決策を分析し、優先順位をつける。 1. **計画の策定と実行** 評価結果に基づき、最適な解決策または解決策の組み合わせを選択し、実施計画を策定する。この計画では、リソース、スケジュール、解決策に関連する潜在的なリスクや課題を考慮する必要がある。 これらのステップを踏むことで、複数のアプローチの組み合わせが必要な複雑な問題を解決するための体系的なアプローチをとることができる。最初の、あるいは最も簡単な解決策に落ち着くのではなく、<span class="att0">問題に対する最良の解決策を見つけること</span>に焦点を当てるべきである。 ------------------------------------------------------------------------ # Quote - [スキル定義委員会 from データサイエンティスト協会(https://twitter.com/jdss_skill) <style> .att0 {color: #eb4034;} .att1 {color: #3465eb;} </style> <!-- <span class="att0"></span> -->