[論文][要約] Security Data Collection and Data Analytics in the Internet: A Survey

--- tags: 研究, 論文, 要約 robots: noindex, nofollow --- [論文][要約] Security Data Collection and Data Analytics in the Internet: A Survey === 著者: Xuyang Jing, Zheng Yan， Witold Pedrycz 所属: 種類: IEEE COMMUNICATIONS SURVEYS & TUTORIALS 年度: 2019 ## 概要インターネットにおけるセキュリティ対策に関して，どのようなデータを収集する必要があるのかを4つのカテゴリに分類して調査する． 1. パケットレベル 2. フローレベル 3. コネクションレベル 4. ホストレベルまた，各カテゴリの使用法およびデータ分析手法の種類について，DDoS攻撃およびワーム攻撃の検出手法のパフォーマンスを測定する． ## Contributions 1. セキュリティに関するデータを4つのカテゴリに分類し，利点と欠点をまとめた 2. 分析を柔軟かつスケーラブルにするために，セキュリティ関連データの分析に関する追加要件を提案 3. 提案した要件を適用した上で，DDoSフラッディングおよびワーム攻撃の検出方法を見直す． 4. 問題提起 ## 各データの分類と利点・欠点 ![データカテゴリーのまとめ](https://i.imgur.com/6byk1iJ.png) ## セキュリティデータの分析方法 ![セキュリティデータの分析方法](https://i.imgur.com/NDMJ0tA.png) ### 統計的手法 1変量モデルと多変量モデルがあり，1変量モデルは事前知識として分布の仮定が必要となり，多変量モデルは相関を見る．統計的指標として，エントロピー，累積和，指数加重移動平均などが用いられる． #### 利点 - 攻撃に対する事前知識を必要としない(正常データのみを用いて異常データを検出している)ため，ゼロデイ攻撃にも対処できる． - 適切な閾値を設定することで，突発的な変化を引き起こす攻撃検知に有効． - 特徴量が少ない #### 欠点 - 攻撃者の訓練に影響を受けやすい - ネットワークの正常動作に関する純粋なモデルを作成するのは困難 - false positiveとfalse negativesのバランスをうまくとれるような閾値を設定するのが困難 - quasi-stationary process(おそらく，昼と夜でトラフィック量があまり変化しないとかそういう話)を仮定しているため，必ずしも現実に即していない． ### 機械学習 3つのカテゴリにわけられる． 1. 教師あり学習 2. 教師なし学習 3. 半教師あり学習 ### 利点 - 高い検知率 - 新規トラフィックに応じて検知処理を更新することが出来る ### 欠点 - 教師あり学習は関連する情報が再学習されるまで道の攻撃を検知できない． - 教師なし学習はクラスタ数を決定するための事前知識が必要で，大きいクラスタに対して小さいクラスタは異常であるという仮定に基づいている． - 学習と更新に他の手法と比べて多くのリソースが必要となる ### ナレッジベースな手法事前に定義されたルールに基づいて攻撃の検知を行う．エキスパートシステムはトレーニングデータから新しく特徴を抽出する．また，オントロジーベースや論理関係分析などがある． ### 利点 - 単純でロバスト性があり，柔軟 - 攻撃ルールやパターン，シグネチャが正確に定義されている状況下であれば，高い検知率を持つ． ### 欠点 - 未知の攻撃は検知できない - 高水準の事前知識が必要 - 偏った正常データや攻撃データを用いてしまうことによる誤検知が発生する可能性がある ## セキュリティデータ分析の要件攻撃は手法は日毎に進化しているため，検知手法もまたより発達していくべきだ．従来の検知手法における要件として，リアルタイム性や高正確性，低消費，広配置性などが挙げられるが，より検知手法を柔軟かつスケーラブルにするために，新たに4つの追加要件を提案する． 1. Self-Adaptive Detection(SD) 静的なデータセットを用いてモデルを生成して異常検知を行う手法は，攻撃者がデータセットに対して段階的に異常データを注入してきた場合に脆弱となる．よって，検知モデルは現在のネットワークの状態に応じて動的に更新する仕組みが必要となる． 2. Dynamic Threshold(DT) 従来の検知手法は閾値を決め打ちしていたが，全てのシナリオに対して都合よく有効な閾値を見つけ出すのは困難だ．よって，閾値を効率性と性格率のバランスの取れた値に動的に更新する仕組みが必要だ． 3. Protocol Independence(PI) DDoS攻撃も様々な種類があるが，どのタイミングでどの種類の攻撃が来るかわからず，また，攻撃者はそれらを組み合わせてくる可能性がある．よって，DDoSをプロトコルに依存しない手法で総合的に検知する仕組みが期待されている．例えば，攻撃前のネットワークスキャンはDDoS攻撃に共通して行われることが多いため，それを検出することなどが挙げられる． 4. Deal With Flash Crowds(DFC) 複数の正当なユーザからサーバに対して膨大なトラフィックが送信される事象（フラッシュクラウド）とDDoS攻撃は適切に見分けられる必要がある． ## 4,5章 DDoS flooding攻撃とワーム攻撃についてそれぞれ分析している ## Open issues 1. 従来の静的なデータセットでモデルを生成する手法は，そもそもデータセット中のトラフィックが正常であることを保証できない． 2. エネルギーや費用効果は現在の検知手法では考慮されておらず，実用的な展開に支障をきたしている．（要因として考慮に入れている研究はいくらかある） 3. context-awareで柔軟な検知手法は現在ほとんど研究されていない．現在の静的な閾値ベースな手法ではなく，閾値を動的に決める仕組みを検討するべき．また，攻撃とフラッシュクラウドを区別する課題は未解決． 4. 4つのカテゴリに分けられるセキュリティデータを包括的にうまく利用する研究はまだない． 5. セキュリティインシデントに関して詳細な情報を提供するための一般的なソリューションが普及していない 6. ## ToDo - NetFlowで得られる情報を調査する - NetFlowとOpenFlowのStats情報の差異と併用可能性を調査すす ## 読みたい文献 - ![フロー技術によるネットワーク管理](https://www.slideshare.net/motonorishindo/ss-84186668) - “Security in software defined networks: A survey,” (2015) SDNのセキュリティ上の脅威分析 - “Software-defined networking (SDN) and distributed denial of service (DDoS) attacks in cloud computing environments: A survey, some research issues, and challenges,”(2016) SDNでDDoSに対応するサーベイ - , “Flow-based intrusion detection: Techniques and challenges,” (2017) フローベースの侵入検知に関するサーベイ．フローベースのデータセットもまとめている．