--- tags: スキル定義委員会, データ加工, 推定・検定, データ理解 --- # スキル定義委員会-081 ## DE-81 データ加工 - 結合処理 ⭐️ 🔥必須🔥 ### Q.数十万レコードのデータに対して、単一条件による内部結合、外部結合、自己結合ができ、UNION処理ができる ```mysql= -- Inner Join SELECT t1.column1, t2.column2 FROM table1 t1 INNER JOIN table2 t2 ON t1.column1 = t2.column2 WHERE t2.column2 = 'some_value' UNION -- Outer Join SELECT t1.column1, t2.column2 FROM table1 t1 LEFT OUTER JOIN table2 t2 ON t1.column1 = t2.column2 WHERE t2.column2 = 'some_value' UNION -- Self Join SELECT t1.column1, t2.column2 FROM table1 t1 INNER JOIN table1 t2 ON t1.column1 = t2.column2 WHERE t1.column1 < t2.column1 ``` ### UNION処理 複数のSELECT文の結果を1つの結果セットにまとめる処理を指します。UNION演算子はSQLで、2つ以上のSELECT文の結果を、各SELECT文のすべての行を含む1つの結果セットに結合するために使用されます。結果セットは、SELECT文が処理された順番に返されます。 データ分析において、複数のテーブルのデータを結合したい場合や、複数のデータのサブセットに対して同じクエリを実行し、その結果を結合したい場合によく使用されます。例えば、異なる列を持つ2つのテーブルのデータがあり、そのデータを1つの結果セットに結合して、さらに分析を行いたい場合です。 JOIN、WHERE、GROUP BY などの他の SQL コマンドと組み合わせて、より複雑な方法でデータのフィルタリング、集計、および分析を行うことができます。ただし、<span class="att0">結合する SELECT 文の列が互換性のあるデータ型と構造を持っていること</span>が重要で、そうでない場合は UNION 処理に失敗することがあります。 ------------------------------------------------------------------------ ## DS-81 推定・検定 - 推定・検定 ⭐️⭐️ ### Q.検定力やサンプルサイズ、分布など対象のデータを考慮したうえで適切な検定手法を選択し、結果を評価できる(パラメトリックな多群の検定、クラスカル・ウォリス検定、カイ二乗検定など) 異なるタイプのデータを比較・分析し、変数間に有意な差や関連があるかどうかを判断するために用いられる統計検定です。 どの検定を使うかは、分析するデータの種類と検証する仮説によって決まります。 #### パラメトリック多重群検定 複数の群の平均値を比較し、それらの間に有意差があるかどうかを判断するために用いられる統計検定です。最も一般的なパラメトリック多重群検定は、一元配置分散分析(ANOVA)で、複数の群の平均が等しいという仮説を検定するものです。 #### Kruskal-Wallis検定 ノンパラメトリックな多重群検定で、複数の群の中央値を比較し、それらの間に有意な差があるかどうかを判断するために使用されます。パラメトリック検定とは異なり、Kruskal-Wallis検定は、データが正規分布していることを仮定しないので、正規分布していないデータや順序データにも使用できます。 #### カイ二乗検定 2つのカテゴリ変数の間に有意な関連性があるかどうかを判断するために使用されるノンパラメトリック検定です。これは、データの観察された分布が期待された分布と有意に異なるという仮説を検定するものである。カイ2乗検定は、分割表分析でよく使われ、2つ以上のカテゴリー変数の間に有意な関連があるかどうかを決定するために使用されます。 1. データの種類と分布 データの種類と分布は、適切な検定方法を決定する上で非常に重要である。まず考慮すべきは、連続、カテゴリー、序数、名義など、分析するデータの種類である。データの種類によって適切なテスト方法は異なり、適切な方法を選択することは、分析されるデータの種類に依存します。 例えば、パラメトリック検定はデータの正規分布を仮定しているが、ノンパラメトリック検定は仮定していない。 1. サンプルサイズ 分析するデータのサンプルサイズも適切なテスト方法を選択する上で重要な役割を果たす。 サンプルサイズが小さい場合はノンパラメトリックテストがより適切で、サンプルサイズが大きい場合はパラメトリックテストがより信頼できるかもしれません。 1. 仮説 適切な検定方法を選択する際には、検定される仮説も考慮する必要があります。例えば、平均値の差について検定する場合は、比率の差について検定する場合とは異なる検定を選択することになる。 1. 測定水準 データの測定レベル(名義、順序、区間、比率など)により、適切な検定方法が決定される。 1. グループの数 比較されるグループの数も検定手法の選択に影響する。 例えば、2つ以上のグループ間で平均値を比較する場合は一元配置分散分析、2つ以上のグループ間で中央値を比較する場合はクラスカル・ワリス検定が用いられる。 1. 研究仮説 検証する研究仮説は、適切な検定方法を選択する際にも役割を果たす。 例えば、仮説がグループ間の平均値の差に関するものであれば、一元配置分散分析のようなパラメトリック検定が適切である。仮説がグループ間の中央値の差に関するものであれば、Kruskal-Wallis検定のようなノンパラメトリック検定が適切である。 試験法の結果を評価する場合、考慮すべきいくつかの重要な要素がある。 * 統計的有意性 試験結果を評価する最初のステップは、その結果が統計的に有意であるかどうか、つまり、観察された差異が偶然に生じたとは考えにくいかどうかを判断することである。統計的有意性を判断する際には、有意水準(例:α=0.05)とp値を考慮する必要がある。 * 効果量 効果量とは、群間の差の大きさを表すもので、検定結果を評価する際に考慮することが重要である。統計的に有意な差であっても、効果量が小さければ実用上重要でない場合がある。 * サンプルサイズ * 信頼区間 信頼区間は、推定された群間差の値の範囲を提供し、推定値の不確実性をよりよく理解することができる。信頼区間は、試験の結果を評価する際に計算し、考慮する必要がある。 * 外的要因 外れ値、影響力のあるオブザベーション、交絡変数などの外的要因も、テストの結果に影響を与えることがあります。試験結果を評価する際には、結果に影響を与えた可能性のある外部要因を考慮し、それらが有意な形で結果に影響を与えた可能性が高いかどうかを判断することが重要です。 * 多重試験の補正 多重検定を行う場合、第1種の過誤(偽陽性結果)のリスクが高くなる。このリスクを軽減するために、多重検定補正法(ボンフェローニ補正や偽発見率法など)を用いて、有意水準を調整する必要があります。 まとめると、検定結果を評価する際には、統計的有意性、効果量、サンプルサイズ、信頼区間、多重検定補正法などを考慮し、結果が正確で意味のあるものであることを確認することが重要である。 ------------------------------------------------------------------------ ## BZ-81 データ理解 - データ理解 ⭐️⭐️ ### Q.統計手法を用いる際の閾値の設定に対して、ビジネス観点で納得感のある調整ができる(年齢の刻み、商品単価、購入周期を考慮した量的変数のカテゴライズなど) 統計的手法を用いる場合、適切な閾値を設定することは、正確で意味のある結果を得るために重要です。以下は、閾値を設定する際に考慮すべき5つのポイントである。 * 分析の目的 最初に考慮すべきは、分析の目的と問われている質問の種類である。これは、使用する統計手法に適した閾値を決定するのに役立ちます。 * 有意水準 有意水準(通常αと表記される)は、統計的な有意性を判断するために用いられる閾値である。閾値を設定する際には、望ましい有意水準を検討し、実施する分析の種類に適切であることを確認することが重要である。 * データの分布 データの分布も、閾値を設定する際に考慮されるべきである。結果が正確で意味のあるものになるように、データの分布に基づいて閾値を調整する必要があるかもしれない。 * 検定の種類 使用する統計検定の種類も、適切な閾値に影響を与える。検定によって仮定や要件が異なるため、使用する検定に基づいて閾値を調整する必要がある場合があります。 * 検定の検出力 差が実際に存在するときにそれを検出する能力に関係する。 有意差が実際に存在する場合にそれを検出する確率である。検出力は、検証する仮説の重要性と分析を行うために利用できるリソースに基づいて設定する必要があります。 閾値を設定する際には、望ましい検出力を考慮し、分析されるサンプルサイズと効果の大きさに対して適切であることを確認することが重要である。 3. 第1種・第2種の過誤 第三の考慮点は、第1種・第2種の過誤を犯す可能性である。 第1種の過誤は、実際には有意差がないのに有意差があると宣言された場合に起こり、第2種の過誤は、実際には有意差があるのに有意差がないと宣言された場合に起こる。閾値は、これらの過誤を起こすリスクのバランスをとるように設定する必要がある。 5. サンプルサイズ 標本サイズが大きいと検定の検出力が増し、第2種の過誤を起こすリスクが減少する。 7. 偽陽性または偽陰性のコスト 第1種・第2種の過誤を犯した場合の潜在的な影響という観点から評価されなければならない。 閾値は、分析の特定の状況に基づいて、偽陽性または偽陰性のコストを最小化するように設定されるべきである。 要約すると、閾値を設定する際には、有意水準、検出力、第1種・第2種の過誤、サンプルサイズ、および偽陽性または偽陰性のコストを考慮することが重要である。 ------------------------------------------------------------------------ # Quote - [スキル定義委員会 from データサイエンティスト協会](https://twitter.com/jdss_skill) <style> .att0 {color: #eb4034;} .att1 {color: #3465eb;} </style>