--- tags: スキル定義委員会, データ加工, 推定, 検定, アプローチ設計 --- # スキル定義委員会-078 ## DE-78 データ加工 - フィルタリング処理 ⭐️ 🔥必須🔥 ### Q.数十万レコードのデータに対して、条件を指定してフィルタリングできる(特定値に合致する・もしくは合致しないデータの抽出、特定範囲のデータの抽出、部分文字列の抽出など) この作業は一般にデータフィルタリングと呼ばれ、SQL、Python、Excelなど様々なプログラミング言語やツールを使って行うことができる。具体的な方法は、データ形式、必要な出力、利用可能なツールによって異なります。しかし、データのフィルタリングに関わるいくつかの一般的な手順は以下のとおりです。 1. データを目的のツールや言語にロードする。 2. フィルタリングのための条件を定義する。 3. 使用するツールや言語に固有の関数や構文を使って、条件をデータに適用する。 4. 必要に応じて、フィルタリングされたデータを保存または表示する。 * **特定の値に一致するデータの抽出** このフィルターは、ユーザーが定義した特定の値に一致するレコードのみを抽出するために使用されます。特定の名前、住所、日付など、特定の条件に基づいてデータを抽出するために使用されます。 * **特定の値に一致しないデータの抽出** このフィルターは、ユーザーが定義した特定の値に一致しないレコードのみを抽出するために使用されます。これは通常、特定の名前、住所、日付など、特定の条件に基づいて特定のデータを除外するために使用されます。 * **特定の範囲内のデータを抽出** このフィルターは、ユーザーによって定義された特定の範囲内にあるレコードのみを抽出するために使用されます。特定の日付範囲、年齢範囲、その他の数値に基づくデータを抽出するために使用されるのが一般的です。 * **部分文字列の抽出** このフィルターは、ユーザーによって定義された特定の部分文字列を含むレコードのみを抽出するために使用されます。これは通常、データ内の特定の単語、フレーズ、またはパターンに基づいてデータを抽出するために使用されます。 * **フィルタの組み合わせ** 複数のフィルターを組み合わせて、複数の条件に基づいてデータを抽出するために使用されるフィルター。特定の名前や住所、特定の日付範囲、特定の部分文字列など、複数の条件に基づいてデータを抽出するために使用されます。 ------------------------------------------------------------------------ ## DS-78 推定・検定 - 推定・検定 ⭐️ ### Q.第1種の過誤、第2種の過誤、p値、有意水準の意味を説明できる ### 第1種の過誤 偽陽性としても知られる第1種の過誤は、実際には差がないにもかかわらず、あるテストが誤って差または関係が存在すると結論づけてしまう場合に起こる。言い換えれば、仮説検定が帰無仮説を誤って棄却した場合に、第1種の過誤が発生する。 ### 第2種の過誤 偽陰性としても知られる第2種の過誤は、テストが実際に存在する差や関係を検出できないときに起こる。言い換えれば、仮説検定が誤って帰無仮説を棄却できないときに起こる。 ### P値 P値とは、帰無仮説が真であると仮定したときに、ある検定統計量が実際に観測された値よりも極端またはより極端に観測される確率の<span class="att0">累積確率</span>のことである。p値は、帰無仮説を棄却するか、棄却しないかの判断を助けるために使用される。>のことである。p値は、帰無仮説を棄却するか、棄却しないかの判断を助けるために使用される。 ### 有意水準 有意水準は、アルファ値とも呼ばれ、<span class="att0">第1種の過誤を起こす確率</span>である。偽陽性の結果が出る確率の最大許容値である。有意水準は通常0.05に設定され、これは第1種の過誤を犯す確率が5%であることを意味する。p値が有意水準より小さい場合、帰無仮説は棄却され、差または関係が存在すると結論づけられる。 - [統計の基本のpythonコード(GitHub)](https://github.com/jsakaguc/NCCEPOC/blob/main/statistics/probability.ipynb) - [第1種の過誤と第2種の過誤](https://bellcurve.jp/statistics/course/9315.html) ------------------------------------------------------------------------ ## BZ-78 アプローチ設計 - 分析アプローチ設計 ⭐️⭐️⭐️ ### Q.複数の事業や課題にまたがっていても、必要なデータ、分析手法、可視化などを適切に選択し作業手順に落とし込める データや分析手法は、対象となるビジネスや問題の具体的な要件や目標に基づいて選択し、作業手順に組み込むことができます。適切なデータ、分析手法、可視化技術を使用することで、関連情報を正確に把握・分析し、より多くの情報を得た上で効果的な意思決定を行うことができます。また、データや分析手法を複数の事業や課題に効果的に活用できるよう、accessibilityやscalabilityを考慮することも重要です。 * **データの収集と準備** 複数のソースから必要なデータを収集・準備し、分析が容易な形式にすることです。 - データのクリーニングと変換 - データの欠落や不整合への対処 - データの完全性と正確性の確保 * **データ分析手法** データや課題に応じて、適切な分析手法を選択します。関係性やパターンを特定するために、統計的手法、機械学習アルゴリズム、データ可視化技術などがあります。データを有用な知見や予測に変換する作業です。 * **可視化技術** データや課題に応じて、適切な可視化手法を選択します。棒グラフ、折れ線グラフ、散布図、ヒートマップなどがあります。データ分関から得られたことを明確に伝えることが目的です。 * **Communicationとcollaboration** 分析結果を関係者に効果的に伝え、その結果が実行可能であることを確認するために関係者と協働することです。これには、分析結果を明確かつ簡潔に示すこと、分析結果を説明するための視覚的補助を用いること、ステークホルダーと協力して次のステップを特定することなどが含まれる場合があります。 * **継続的な改善** 作業手順を継続的に見直し、効果的・効率的な作業手順を確保することです。これには、新しい分析手法のテスト、データ収集と準備の手順の更新、結果をよりよく伝えるための可視化技術の改良などが含まれます。 ------------------------------------------------------------------------ # Quote - [スキル定義委員会 from データサイエンティスト協会](https://twitter.com/jdss_skill) <style> .att0 {color: #eb4034;} .att1 {color: #3465eb;} </style>
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up