スキル定義委員会-104

--- tags: スキル定義委員会, データ共有, 性質・関係性の把握, 多次元尺度構成法, ポジションマッピング, PJマネジメント --- # スキル定義委員会-104 ## DE-104 データ共有 - データ連携 ⭐️ ### Q.BIツールの自由検索機能を活用し、必要なデータを抽出して、グラフを作成できる気象庁から適当なデータを取得して、Excelでフィルタをかけてグラフ化しました。 - [Github sample-104](https://github.com/jsakaguc/NCCEPOC/tree/main/define_skill/sample-104) (おそらく、「自由検索機能」はGoogleの検索エンジンのようなイメージですが、個人的にはpythonのほうが楽なので、後日在庫管理アプリのようなものを作成したいと思います。) ------------------------------------------------------------------------ ## DS-104 性質・関係性の把握 - 性質・関係性の把握 ⭐️⭐️ ### Q.適切な類似度を設定した上で、多次元尺度構成法を用いてポジショニングマップを描くことができる #### 多次元尺度構成法(MDS: MultiDimensional scaling) <span class="att0">一対の距離または類似度の行列に基づいて、一連のオブジェクト間の類似性または非類似性を分析するために使用される統計的手法</span>である。MDSは、これらのオブジェクトを低次元空間（通常は2Dまたは3D）で表現し、元のペアごとの距離または類似性を可能な限り保持することを目的としています。データシートには、主にメトリックデータシートとノンメトリックデータシートの2種類があります。メトリックデータシートは、ペアワイズ距離が意味を持つと仮定し、元の距離に最も近似する低次元空間の点の配置を見つけようとするものです。一方、ノン・メトリックMDSは、距離のペアワイズランクが意味を持つことだけを仮定し、元のランクを保持する点の配置を見つけます。 MDSアルゴリズムは、調査データ、評価尺度、または物理的な測定値などのさまざまなソースから得られる、オブジェクト間のペアワイズ距離または類似性の行列を計算することから始まります。次に、MDSは元の距離またはランクを最もよく近似する低次元空間の点の集合を見つけます。このアルゴリズムは、元の距離/ランクと低次元空間における距離/ランクの間の不一致が最小になるまで、点の位置を繰り返し調整します。 MDSはクラスタリング、因子分析、回帰分析などの他の統計手法と組み合わせることで、より包括的なデータ分析が可能になります。適切な類似度を設定した上で、多次元尺度構成法を用いてポジショニングマップを描くコードを書いてください。 - [多次元尺度構成法の活用法を具体的な事例を参考にわかりやすく解説](https://www.nttcoms.com/service/research/dataanalysis/multi-dimensional-scaling/) > (主成分分析やクラスター分析との違いの部分は参考になると思います。) #### ポジションマッピング適切な類似性を持つ多次元尺度構成法を用いて位置決めマップを描く方法 1. **データセットを選び、類似度行列を計算する** データセットは比較したい物体や個体の任意の集合でよく、類似度行列はユークリッド距離、コサイン類似度、相関係数など任意の関連するメトリックに基づくことができます。類似度行列が対称であり、対角線がゼロであることを確認します。 1. **多次元スケーリングを行う** 多次元スケーリングアルゴリズム（例：古典的MDS、非計量的MDS）を使用して、元のペアワイズ類似度を保持する低次元空間の点集合を見つけます。 1. **点をプロットする** 得られた点を2Dまたは3D空間にプロットし、各点がデータセット内のオブジェクトまたは個人を表すようにします。各点の位置は、データセット内の他の点との類似性を反映し、類似性の高い点ほど近く、類似性の低い点ほど遠くなるようにします。 1. **ラベルと注釈を追加する** オブジェクトや個人の名前、低次元空間の次元を表す軸、データセットや分析に関する関連情報など、適切なラベルや注釈をポジショニング・マップに追加します。 ```python= from sklearn.manifold import MDS import numpy as np import matplotlib.pyplot as plt # Define the similarity matrix (example using Euclidean distance) similarity_matrix = np.array([[0, 2, 3], [2, 0, 1], [3, 1, 0]]) # Perform MDS with 2 dimensions mds = MDS(n_components=2, dissimilarity='precomputed') results = mds.fit(similarity_matrix) # Get the coordinates of the points in the low-dimensional space coords = results.embedding_ # Plot the points plt.scatter(coords[:, 0], coords[:, 1]) # Add labels and annotations for i, label in enumerate(['Object 1', 'Object 2', 'Object 3']): plt.annotate(label, (coords[i, 0], coords[i, 1])) plt.xlabel('Dimension 1') plt.ylabel('Dimension 2') plt.title('Positioning Map') plt.show() ``` ![](https://i.imgur.com/ckw4tB0.png) - [Github BZ-104.ipynb](https://github.com/jsakaguc/NCCEPOC/tree/main/define_skill/sample-104) ------------------------------------------------------------------------ ## BZ-104 PJマネジメント - プロジェクト計画 ⭐️⭐️ ### Q.分析プロジェクトのデータ、分析結果の中から、どれを顧客、外部に開示すべきか、あらかじめ判断できる 1. **目的** 分析プロジェクトの目的と、顧客や外部の関係者の目標を検討します。どのデータおよび分析結果がこれらの目標達成に関連し、当事者が十分な情報を得た上で意思決定を行うために必要なのかを判断します。 1. **機密性** データおよび分析結果の機密性と機密性を評価する。どの情報を守秘し、どの情報を顧客や外部の関係者に開示できるかを判断する。データのプライバシーとセキュリティに関する法的または倫理的な義務を考慮します。 1. **関連性** データや分析結果と顧客や外部の関係者との関連性を判断します。データや分析結果が、プロジェクトの結論や提言を理解するために重要であるか、それとも単なる補助的な情報であるかを検討します。 1. **完全性** データおよび分析結果の完全性を検討します。データや分析結果がプロジェクトの結論や提言を裏付けるのに十分な包括的なものであるか、それとも分析の全体像を示すために追加情報が必要であるかを判断します。 1. **明確さ** データと分析結果の明確さと解釈のしやすさを評価します。データや分析結果が、顧客や外部の関係者が容易に理解できる形で提示されているか、あるいは情報を明確にするために追加の説明や視覚化が必要かどうかを判断します。 ------------------------------------------------------------------------ # Quote - [スキル定義委員会 from データサイエンティスト協会](https://twitter.com/jdss_skill) <style> .att0 {color: #eb4034;} .att1 {color: #3465eb;} .att2 {color: #69c976;} </style>