# benchmark for GSMSに関する研究 ###### tags: `GSMS` `BENCHMARK` `評価基準` `ジオストリム` `データストリーム管理システム` `Road traffic management` `Geostream Management System` ## 論文 the design of a benchmark for Geo-Stream management Systems(Chao Shen; Yan Huang; Jason.W.Powell, Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems Pages 409-412) ### 研究概要 #### 内容 DSMSの評価基準(benchmark): 2次元GSMSを評価するためのフレームワークであるGSMarkを紹介する #### 研究内容 * 性能評価を通して機能性および効率性を決定することを必要とする * Benchmark: データセットと個々のコンポーネントまたはシステム全体をテストすることで、単純化された実験シナリオを提供することによって評価プラットフォームを実現する 同一のパラメータで複数のシステムを比較することが簡単になる アーキテクチャ:  - データジェネレータ(data generator): 合成および実際のジオストリーミングデータの組み合わせを作成する - ワークロードシミュレータ(workload simulator): データをデータストリームとしてGSMSに表す - 一連のベンチマーククエリ(benchmark series): GSMS機能とクエリ実行を評価する #### 既存研究 - 広く採用されているGSMSベンチマークない - STDBMSおよびSMSのベンチマークを調整しようとしたところ、一般的なカテゴリー: ①空間的②時空間的③ストリーミング④非ストリーミング ①空間ベンチマーク:多角形を結合する実行など、空間的側面のみに関するシステムの機能を評価する ②時空間ベンチマークは、空間と時間の両方に焦点を当てている。例えば、時間間隔の間に重なっている多角形領域を見つけるとき、それは性能を評価するかもしれない | 既存基準 | spatial | spatial-temporal|streaming |使用する方法 |問題| | -------- | -------- | -------- | -------- | -------- | -------- | | Linear Road || 〇 | 〇 | Simulated |限られたデータセット(直線,平行道路のみ)| | SEQUOIA 2000 | 〇 ||| Real | 地球科学問題に向けて| | DynaMark |〇||| Simulated | インデックス評価を対象とする| | COSTS || 〇 || Simulated |索引付けのみに焦点を当てている( ストリーミングシステムを対象としない)| | BerlinMOD ||〇||Simulated/Real|STDBMSベンチマークを完成する| > 道路上の移動車両の時空間データをシミュレートする >- Linear Road Benchmark: > 動的な渋滞と事故なので課金システムをシミュレートすることによって実現する > シミュレートされたデータは、30秒ごと、車の位置報告と、事故の検出および車両への警告および料金の計算に使用される関連統計情報から構成される > ![](https://i.imgur.com/91lfEs8.png) > システムはMIT Traffic Simulatorを使用して、100 x 100平方マイルのエリアに8つの道(東方向に4つ、西方向に4つ)の直線状の平行道路で移動車両を生成する > 事故は20分ごとにランダムに発生し、他のトラフィックをトラフィック間隔モデルに従って減速させる > > - BerlinMOD: > 自宅の周囲3kmの範囲内で、時間的パターンに従って仕事と家の間を移動する > 移動は出発地、目的地を持ち、最短経路をたどり、制限速度がある > 加速、減速、および停止イベントは一定の確率で発生する > ベンチマーク:範囲と最近傍の2つのクエリセットが含まれる: オブジェクトのID、ディメンション、クエリの間隔、条件の種類、集計という5つことをカバーする 次元とクエリ間隔は、ベンチマークの時空間的側面を定義する ディメンションは標準にすることができる > BerlinMODは時空間データベースシステムの最も包括的なベンチマークの1つ > データには、重要で意味のある空間的および時間的な要素が含まれている、クエリによって重要な機能が評価される > ただし、データを静的に扱うため、ストリーミングベンチマークではなく、連続クエリでもデータを静的に使用する - GSMarkはBerlinMODのvehicle-road networkモデルを参考して、それをより大きなフレームワークに拡張し、ジオストリーミングデータに適したデータとクエリを提供する - vehicle-road networkモデルを使用するとき、移動objectに関する原則を定義する必要がある #### データの原則 - Brinkhoff原則を参考した(合成データとリアルデータをバランスする) > - Thomas Brinkhoffによるdata generator frameworkは、制限的なネットワーク上で示された移動オブジェクトの特性を識別すること > - 2つのタイプのデータを対象とする: 合成データとリアルデータ > 一般的に、現実的な条件下でのパフォーマンス評価が可能になるため、リアルデータが優先される。 > ただし、実際のデータを取得し、必要なデータの範囲を判断し、使用するデータ量を決定するのは難しい。 > これとは対照的に、合成データは生成が容易であり、アルゴリズムや構造を評価するように設計することができる(現実性を失う)。 > したがって、**目標**はリアルデータを使用しながら、必要に応じて合成データを含めて、バランスをとる。 * GSMarkデータジェネレータは、実データを組み込んだ合成データセットを作成することによって、Brinkhoffの原理をカプセル化している > 原則:  > ①実世界のオブジェクトを移動させることはネットワークに従う > ②動く物体は目的地への速い道を使う > ③しきい値を超えると、動いているオブジェクトの数がオブジェクトの速度に影響する > ④接続上の速度が変更されると、移動するオブジェクトの経路が変わる可能性がある > ⑤動く物体の数は時間に依存する関数 > ⑥オブジェクトの移動速度は、ネットワークやネットワーク上を移動するオブジェクトとは無関係な時空間関数の影響を受ける ## 今後の予定 - 残り部分を読む - Real-time Distributed Co-Movement Pattern Detection on Streaming Trajectories(Lu Chen, Yunjun Gao, Ziquan Fang, Xiaoye Miao, Christian S. Jensen, Chenjuan Guo, Proceedings of the VLDB Endowment, Vol. 12) - Ridesharing: Simulator, Benchmark, and Evaluation(James J. Pan, Guoliang Li, Juntao Hu, Proceedings of the VLDB Endowment, Vol. 12) ## その他 なし