衍生資料—批次處理

利用分散式檔案系統完成批次資料的計算。

類型	模式	時間	注重
服務處理	請求、回應	短	高可用、低延時
批次處理	請求	長	通量（throughput）
串流處理	消化、產出	無	負載

GNU Coreutils 是一個基於 Unix 開發哲學建構出的工具組

在開始前，我們來聊聊 GNU Coreutils 吧！

先簡單玩玩看，嘗試找出平均延時：

# 查看一下資料格式
$ head 11-30.log
# 透過 less 來檢查輸出的格式，等確認沒問題後再接著執行後續步驟，避免耗時的計算重新執行。
$ cat 11-30.log | awk '{print $4}' | less
# 找最低延時
$ cat 11-30.log | awk '{print $4}' | sort -n | head -n 5
# 查看 latency 以毫秒為單位的分佈（會發現是長尾分佈）
$ cat 11-30.log | awk '{printf "%.0f\n", $4}' | sort | uniq -c | sort -n -k2 | head -n 20

相關小抄可以參考 the-art-of-command-line

每個小工具做好自己的事
輸出=輸入
快速設計，持續補強
盡量使用工具

剛剛我們透過 sort、uniq、awk、sed 等等的工具完成一系列複雜的運算。GNU Coreutils 的理念便是透過單一介面讓每個獨立的小工具彼此溝通，而這些小工具都能做好自己的事，以下是 GNU Coreutils 在設計時基於的理念：

讓各個工具做好自己的事，當有其他功能的需求時，再增加一個工具吧！
把輸出設計成其他工具可以拿來用做輸入，避免在輸出中增加無謂的資訊
最好在數週內完成設計並實作一個工具，再持續補強
盡量使用工具（套件）來減輕開發負擔

什麼是每個工具做好自己的事？舉例來說，sort 會把大資料分成小份小份排序好的資料，再把這些資料整合在一起。其中每份資料都是透過不同 CPU 並行處理的，讓整體效率提高到幾乎沒有一個程式語言內建的排序演算法能和他並論的。

有沒有很像我們最近的敏捷開發？

和其他程式有什麼差？

function getLatencyDistribution(filename) {
  const stream = readFileLineByLine(filename);
  const counter = {};

  for (const line of stream) {
    const latency = line.split(' ')[3];
    const latencyInt = parseInt(latency, 10);
    counter[latencyInt] = (counter[latencyInt] || 0) + 1;
  }

  return Object.entries(counter)
    .map((entry) => ({latency: entry[0], count: entry[1]}))
    .sort((a, b) => a.latency - b.latency);
}

JavaScript 寫出來的函式一樣可以完成工作，但是當我需要調整產出，例如以數量來排序而非以延遲來排序，就要進去程式碼裡面暸解整個結構再做調整。相對而言 GNU Coreutils 就很單純了。

除此之外，我們可以看到 JS 程式碼裡面他的 counter 是使用記憶體來記錄這些數量，但是如果當粒度調到很細的微秒等級時就很可能出現記憶體不夠的狀況，相比較而言 sort 和 uniq 的組合，因為是使用檔案系統做紀錄（和少量的記憶體）就可以避免這件事的發生。

uniq 的做法是只找前後文是否有相同的字來做記數，這樣就可以避免全文檢索。所以我們才需要在 uniq 之前先 sort。

而 sort 會把檔案拆成一小塊一小塊（批次處理的概念！），然後各自排序再整合在一起，就好像我們前面看到的排序字串表。

	import os

	r, w = os.pipe()
	fr = os.fdopen(r, "r", 1)
	fw = os.fdopen(w, "w")

	while fr.readable():
	output = myProcess(fr.read())
	fw.write(output)

分散式	單台
Hadoop	Unix
HDFS	管線
MapReduce	在這之上的框架

面向	批次處理	MPP
資料	生/原始	結構化
產出	衍生資料	報表
復原	輕易	較難
彈性	高	低
直觀	低	高
容錯	容易	原子性

面向	批次處理	MPP
資料	~~生/原始~~	~~結構化~~
產出	衍生資料	報表
復原	輕易	較難
彈性	高	低
直觀	低	高
容錯	容易	原子性