--- tags: スキル定義委員会, データ加工, グルーピング, 分析評価, 非階層クラスター分析 --- # スキル定義委員会-086 ## DE-86 データ加工 - マッピング処理 ⭐️⭐️ ### Q.データ定義や実際の観測データの状況をもとに、一般的な名寄せ処理を設計・実装できる ### 名寄せ処理 データを活用するには、データに含まれる同一組織・同一人物に対して同一IDを付与してデータをグルーピングする作業のこと #### 手順 1. **クレンジング処理** 2. **メタ情報追加** * 単純追加 * タイトル抽出・ベクトル化 3. **名寄せ** * 同一の可能性がある候補同士を連結(組合せを列挙) * 候補の組合せ(エッジ)に対してスコアリング * スコアを元に候補(ノード)を繋げてグルーピング 4. **名分け**  - [名寄せの仕組み](https://lab.astamuse.co.jp/entry/2020/12/26/212850) ------------------------------------------------------------------------ ## DS-86 グルーピング - グルーピング ⭐️⭐️ 🔥必須🔥 ### Q.非階層クラスター分析において、分析対象となるデータの特性や分析目的に応じ、適切なクラスター数を決定できる 1. **Data distribution** 適切なクラスタ数を決定するために、<span class="att0">データの分布、変動性、均質性</span>を考慮する。データが均等に分布している場合は、クラスタ数を少なくすることが適切な場合があります。データが歪んでいる場合は、より多くのクラスタが必要な場合がある。 1. **Sample size** 適切なクラスタ数を決定するために、サンプルの大きさを考慮する。サンプルが大きいと、より多くのクラスタが必要になる場合がある。 1. **Purpose of analysis** 適切なクラスタ数を決定するために、分析の目的を考慮する。目的が探索的な場合、より多くのクラスタが必要な場合があります。データを明確なカテゴリに分類することが目的の場合は、クラスタ数を少なくすることが適切な場合があります クラスタの数は、分析の目的に基づいて決定する必要がある。例えば、データ内の明確なサブグループを識別することが目的であれば、クラスタの数は少なくてもよいでしょうし、データ内の微妙な違いを識別することが目的であれば、より多くのクラスタが必要になるかもしれません 1. **Data variability** 適切なクラスタ数を決定するために、データのばらつきを考慮する。データのばらつきが大きい場合は、より多くのクラスタが必要な場合があります 1. **Statistical methods** 適切なクラスタ数を決定するために使用されている統計的手法を検討する。エルボー法などのいくつかの方法は、最適なクラスタ数を決定するのに役立つ 1. **Domain knowledge** 適切なクラスタ数を決定するために、データの領域知識を考慮する。ドメインの専門家は、データの経験と理解に基づいて、適切なクラスタ数についてより良い理解を持っているかもしれません 1. **computational complexity** 解析の計算量を考慮して、適切なクラスタ数を決定する。クラスタ数が多くなると、計算量が増える可能性があります 1. **Results interpretation** 適切なクラスタ数を決定するために、結果の解釈可能性を考慮する。クラスタ数が多いと結果の解釈が難しくなる場合がある 1. **Validation metrics** シルエットスコアやDavies-Bouldin指数などの検証メトリクスを使用して、データポイント間の類似性やクラスタのコンパクトさに基づいて、最適なクラスタ数を決定する ------------------------------------------------------------------------ ## BZ-86 分析評価 - 評価 ⭐️⭐️ 🔥必須🔥 ### Q.担当する分析プロジェクトの分析結果を見て検討目的と合っているか評価できる * **Alignment with study objectives** 分析プロジェクトの目的が調査目的に合致していること、また分析結果が調査目的をサポートしていることを確認すること * **Relevance of the results** 結果の妥当性を評価し、研究目的と関連性があり、価値ある洞察をもたらすものであることを確認する * **Interpretation of the results** 結果が適切に解釈され、分析から得られた結論が研究目的と一致していることを確認する * **Quality of the data** 分析に使用したデータの質を評価し、それが研究目的に適していることを確認する。 * **Validity of the results** 分析に用いた方法、仮定、導き出された結論など、結果の妥当性を評価する * **Limitations of the results** 結果の一貫性に影響を与える可能性のある交絡変数、偏り、データの限界など、結果の限界を考慮する * **Replicability of the results** 結果の再現性を評価し、同じデータと方法を用いて分析を繰り返し、同じ結果を得ることができることを確認する 結果が期待されるものと比較すること、結果が正確であることも確認する * **Completeness of the analysis** 分析が完全であり、肯定的な結果も否定的な結果も含め、すべての関連データが考慮されていることを確認する * **Communication of the results** 分析結果が明確に伝達され、研究目的をサポートする方法で主要な発見が提示されていることを確認する ------------------------------------------------------------------------ # Quote - [スキル定義委員会 from データサイエンティスト協会](https://twitter.com/jdss_skill) <style> .att0 {color: #eb4034;} .att1 {color: #3465eb;} </style> <!-- <span class="att0"></span> -->
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up