# Interactive visual analytics system Interactive Visual Discovering of Movement Patterns from Sparsely Sampled Geo-tagged Social Media Data, Siming Chen, Xiaoru Yuan, Senior Member, IEEE, Zhenhuang Wang, Cong Guo, Jie Liang, Zuchao Wang, Xiaolong (Luke) Zhang, Member, IEEE and Jiawan Zhang, Member, IEEE ###### tags: `視覚化分析` `ジオストリム` `データアナリティクス` `ソーシャルメディアデータ` `データストリーム` `Social Media and Location-Based Services` ## 既存研究 ![](https://i.imgur.com/Cz1rOK7.png) 1. 移動view分析 数据类型:dense sampling trajectories密集采样轨迹, origin-destination data dst数据分析时, 为了减少轨迹杂波,与试图和数据进行更好的交互和操作,重点使用过滤,cluster和对时空间数据进行聚合。 od数据分析的时候,用叠加矩阵来使数据可视化 问题: 基于dst的工具需要可靠且稳定的时间信息。od的工具要求明确区分起源和目的地。 3. ジオタグ付きソーシャルメディアの分析   利用smd的地理标记来推断和预测人们的空间和时间行为。但是现有研究不涉及或者很少涉及时间信息。任务主要集中在运动空间特征方面。但是时间信息的统计数据可以改善分析结果。 5. sparsely sampled trajectories的可视化分析 数据类型: location based data; activity based data; device based data 通过聚合,减少不确定性。这个方法可以应用于社交媒体分析(把用户视为提供数据的传感器) → 需要研究如何聚合来自smu的空间时间数据 4. movement semantic 分析(移動意味解析) (假设具有语义的运动更可靠)采用基于旅行时间聚类的无监督学习方法,其中每个旅行时间群对应于一种运动模式。但是在微博数据中,许多运动不能可靠地归因于已知的运输模式。因此,我们使用模糊聚类方法,高斯混合模型允许一些运动被视为噪声。    ## Challenges 利用weibo中的spatiotemporal信息对weibo user的运动模式进行分析(geotags) **本文問題**: 人们如何移动, 某些相关旅行可能会需要多长时间 **難点** 1. the variability 2. the uncertainty of the time ![](https://i.imgur.com/RR0gi03.png) > 2つ都市間の移動時間はweibo投稿間の時間間隔に近く 問題:①ユーザが出発時と到着時にすぐにWeibosを投稿しない    - t1:Weiboを投稿してから最初の都市から出発するまで    - t2:2番目の都市に到着してから次のWeibo投稿まで    ②異なる飛行機/列車および潜在的な遅延 ## 思路 ### social data的特点 1. large mounts of people and wide geographic coverage 2. 轨迹的不规则分布 3. uncertain data 4. movement with semantic information #### 1. 开发了一个uncertainty model来理解相关temporal data的分布 ##### 1) 通过Gaussian mixture model来发现用户的运动模式  input: movement data  output: category information with confidence interval of each time interval distribution. ・特定の種類の交通について移動時間は一般にガウス分布と旅行時間はデータによく適合する→時間間隔はガウスモデルの混合として近似できると仮定 ![](https://i.imgur.com/938ds26.png) ![](https://i.imgur.com/VKCyTXy.png) ・デフォルトのK値を自動的に決定するためにベイズ基準技術(BIC):        ![](https://i.imgur.com/1nINi3J.png) 𝜃 :モデルのパラメータ  d: パラメータの数 N: 入力データの数  * BICが低いときモデル化効果が優れている、ユーザが手動でK値を選択するできる ##### 2)results ![](https://i.imgur.com/j7dhbQL.png)  Movements between Beijing and Chengdu > 1) Original time interval distribution (a) > 2) Filter out the trajectories with time interval less than 1 hour and more than 60 hours > 3) Get the distribution with modeling with k=3,4 > 4) Investigate the four peaks in (d) > 5) Using external data sources for investigation ( air plan, train time table, etc.) >  p1:飞机 p2:飞机延误 p3 火车 p4 拖延很久(不限于交通模式) #### 2 システム構成 基于social data的特点,开发了一个可视化分析系统 ![](https://i.imgur.com/2wTNCSU.jpg) > (a)time line view (b)動きを集約するためのspatial temporal view (c)ST matrix view (d)ST Detail View (e)ST model view (f)parameter control bar #### 提出了一个analytical pipeline来指导social media data的过程和分析 ![](https://i.imgur.com/7flvWR4.png) > 1. Data reprocessing – remove the advertisement account, robots, jumping points, etc. > 2. Spatial temporal exploration – interactive POI selection and temporal filtering. > 3. Dynamic aggregation and filtering – filter spatial and non-spatial attributes (time interval / geo distance) distribution > 4. Detailed analysis – adjust the parameters of uncertainty modeling, iteratively adjust the output of the model with text analysis and spatial temporal filtering > 5. Semantics Exploration – with customized POI, temporal ranges and reliable movement data within specific categories