--- tags: スキル定義委員会, データ加工, グルーピング, 分析評価, k-means法 --- # スキル定義委員会-089 ## DE- データ加工 - 変換・演算処理 ⭐️ 🔥必須🔥 ### Q.数十万レコードのデータに対する四則演算ができ、数値データを日時データに変換するなど別のデータ型に変換できる ```python= import numpy as np import pandas as pd # 300,0000件のランダムなデータの作成 data = np.random.random_sample(size=(3*(10**5), 4)) data = pd.DataFrame(data, columns=[f"col_{i}" for i in range(0, 4)]) ''' col_0 col_1 col_2 col_3 0 0.026030 0.854515 0.168056 0.078701 1 0.046416 0.126626 0.724045 0.763910 ... ''' data["col_0"] += 1 ''' col_0 col_1 col_2 col_3 0 1.026030 0.854515 0.168056 0.078701 1 1.046416 0.126626 0.724045 0.763910 ... col_0 float64 col_1 float64 col_2 float64 col_3 float64 dtype: object ''' data["col_0"] = data["col_0"].astype(int) data.dtypes ''' col_0 col_1 col_2 col_3 0 1 0.854515 0.168056 0.078701 1 1 0.126626 0.724045 0.763910 ... col_0 int64 col_1 float64 col_2 float64 col_3 float64 dtype: object ''' ``` ------------------------------------------------------------------------ ## DS- グルーピング - グルーピング ⭐️⭐️ ### Q.k-means法で得られる分析結果は局所最適解であるため初期値問題があることを理解し、適切な初期値を選択できる k-means法は、<span class="att0">データ点とクラスタ中心点との距離(平均)に基づいてデータをk個のクラスタに分割する</span>、一般的に使用されているクラスタリングアルゴリズムです。 しかし、k-means法は「<span class="att0">初期値問題</span>」の影響を受けやすいため、k-means法で得られる結果は、クラスタ中心点の初期値に対して敏感になります。つまり、k-means法は初期値によって異なる結果を出すことができ、その結果は全体最適ではなく、局所最適解にしかならない可能性があるということです。 初期値の問題は、k-means法が収束するまで繰り返しクラスタ中心を改良するヒューリスティックなアルゴリズムであるために発生します。このアルゴリズムはクラスタ中心の初期セットから始まり、分析の最終結果は初期値に依存します。初期値がデータの基本的な構造を代表していない場合、アルゴリズムは最適でない解に収束するか、あるいは全く異なる解に収束する可能性があります。 k-means法の適切な初期値を選択: 1. **Random initialization** この方法は、データセットからk個のデータ点をランダムに選択し、クラスタ中心点の初期値とするものです。 この方法はシンプルかつ高速で実装が容易であるが、k-means法を実行するたびに<span class="att1">異なる結果となり、最適な結果が得られない</span>可能性があります。 1. **K-means++** 最適でない結果を生む可能性を減らすために、クラスタのセントロイド間の距離を最大化する方法でクラスタのセントロイドを初期化します。 この方法はランダムな初期化よりも複雑(計算量も多い)であるが、より良い結果を得ることができます。 1. **Hierarchical clustering** この方法は、階層型クラスタリングアルゴリズムを使用して、k-means法の初期値(初期のクラスタ中心)を生成するものです。 この方法は、ランダムな初期化やK-means++よりも複雑であるが、より正確な結果を得ることができます。 1. **Expert knowledge** 専門家の知識またはデータの事前知識を使用して、初期のクラスタ中心を選択することが可能です。 例えば、データが既知のクラスラベルを持つオブジェクトから構成される場合、初期のクラスタ中心は各クラスのオブジェクトの平均値に設定することができます。 全体として、最適でない結果を生む可能性を減らすために、k-means法の適切な初期値を選択することが重要です。最適なアプローチは、データの性質や分析の目的によって異なり、最適な結果を得るためには複数の方法を試す必要があるかもしれません。 ------------------------------------------------------------------------ ## BZ- 分析評価 - 業務へのフィードバック ⭐️⭐️⭐️ ### Q.分析的検討に基づき、経営レベルで必要なアクション、改革案を整理して結論を導くことができる 分析調査に基づき、経営レベルで必要なアクションや改革案を整理し、結論を出すには、その結果、分析の目的、現在の組織の状況を明確に理解することが必要です。ここでは、分析調査の結果を効果的に整理し、結論を導き出すためのステップをご紹介します。 1. **Identify key findings** 結果から重要な発見を特定し、その重要性と管理レベルとの関連性に基づいて優先順位をつけます。 観察と結論は必ず区別し、データによって裏付けられていない仮定をしたり、結論を出したりしないようにします。 1. **Evaluate strengths and limitations** データ、方法論、目的における制限を含め、分析研究の長所と限界を評価します。 これらの制限が結果にどのような影響を与えたか、また分析結果を改善するためにこれらの制限に対処する必要があるかどうかを検討します。 1. **Identify opportunities for improvement** 分析調査の結果に基づき、経営レベルでの改善の機会を特定する。 データや結果をどのように活用すれば、改革を推進し、望ましい結果を達成できるかを検討します。 1. **Develop a reform proposal** 分析調査の結果に基づき、必要なアクションと改革を概説する詳細な改革案を作成します。 具体的な目標、スケジュール、リソース、成功のための指標を含めるようにします。 1. **Communicate the results and reform proposal** 結果と改革案を、経営陣、同僚、その他関係者を含む関係者に伝えます。 結果と改革案を明確かつ簡潔に示し、重要な発見と改善の機会を強調するようにします。 全体として、分析調査を整理し結論を出す目的は、<span class="att0">その結果を改革の推進や経営レベルの向上に役立てること</span>です。このプロセスには客観的かつ体系的に取り組み、結果と改革案がデータの徹底的な分析に基づいていることを確認することが重要です。さらに、提案された改革を成功裏に実施するためには、結果と改革案を関連するステークホルダーに明確かつ効果的に伝えることが重要です。 ------------------------------------------------------------------------ # Quote - [スキル定義委員会 from データサイエンティスト協会](https://twitter.com/jdss_skill) <style> .att0 {color: #eb4034;} .att1 {color: #3465eb;} .att2 {color: #69c976;} </style> <!-- <span class="att0"></span> -->
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up