owned this note changed 7 years ago
Linked with GitHub

基于 Elastic Stack 的大数据分析 - 曾勇

歡迎來到 https://hackmd.io/c/COSCUP2018 共筆 :mega:
點擊本頁上方的 開始用 Markdown 一起寫筆記!
手機版請點選上方 按鈕展開議程列表。

請從這裡開始

數據從哪來

  • 硬體、服務器
  • 業務、經營數據

數據可以做什麼?

  • 報表
    • 把數據做得簡單易懂
  • 異常
    • 錯誤時間的操作
    • 異常離羣值
    • 把不正常數據從大量數據中找出來
  • 主動警告 (ALARM)

Hadoop?

  • 複雜
  • 沒有團隊來做玩不起來
  • 分析週期太長
  • 離線分析
  • 靈活度不夠
  • 2018 Apache Kafka Report
    • Elastic Search(43%) 最多
    • Postgres居次

Elastic?

  • 數據分析
    • Search
    • Data sources
    • Visualization
    • ML
    • Unstructured
    • Query lang
    • Drill down
    • Log correlation
    • Real-time
    • Alert
    • Secure
    • Reports
    • Scalable
    • SaaS
    • Enrichment
    • APIs
    • Dashboard
    • Elastic 都幫你做惹
  • 簡單易用
  • You know for search. and analytics!
    • Aggregation & Pipeline Aggregation
    • Doc_values 列式儲存
    • BKD tree 高效數字類型
    • Geo 地理位置查詢
    • 動態腳本
    • Rolling up historical data
    • SQL & SQL JDBC
  • Aggregation
    • 根據時間打包數據成統計量(如daily average)
    • Buckets
      • Terms
      • Histogram
      • Geohash grids
    • Metrics
      • min, avg, max
      • stats
      • cardinality
    • SELECT COUNT(*), AVG(score) FROM table

數據分析

  • 收集數據 -> logstash, beats
  • 儲存數據 -> elasticsearch
    • 放得下
    • 能夠支撐之後的分析
  • 分析數據 -> kibana

logstash

  • Collects diverse sources
    • Over 200 plugins
  • 把非結構化的數據轉成結構化的
  • 包含數據的映射表

beats

  • 輕量級數據搬運工
  • Metricbeat
  • Filebeat
  • Auditbeat

elasticsearch

  • ebay
  • ctrip
    • 94 個叢集
    • 超過 700 多個節點
    • 每天 log 1600 億條

kibana

  • 性能指標監控分析
  • NPM 網路流量分析
  • 入侵檢測、安全分析
  • 地理位置訊息分析

Demo

  • kibana dev tools
  • GET _search
    • aggs
      • province_dis
      • nested aggs
  • kibana discover
  • kibana visualize
tags: COSCUP2018 data
Select a repo