Elasticsearch 除了提供搜尋的功能外,也提供了資料統計的功能,也就是本篇要介紹的聚合。聚合提供了多種分析的方式來滿足大多數的資料統計需求,例如 :
而聚合主要的功能有以下四個 :
下面我們就來介紹每一種聚合的功能和使用方式。
可以持續追蹤和計算一組 Document 指標的聚合,簡單來說就是可以用來計算最大值、最小值、平均值、總和等等的功能。
指標型聚合又分為單值分析和多值分析,單值分析只會輸出一個結果,多值分析會輸出多個結果。
單值分析可以使用的功能包含 :
NAME 可以自由填入想要的名稱,AGG_TYPE 可以填入上方列出的幾種功能,例如 : min。
範例
首先先建立一組資料,以便後面操作使用。
接著我們對 score 這個 Field 做指標型聚合分析,這裡 size 設為 0 只是為了不要顯示搜尋的 Document,指令如下 :
下面是輸出的結果,剛才總共新增了 14 筆 Document,所以 value_count_score 是 14。再特別看到 cardinality_score 的結果是 13,這是因為有兩個 score 為 58,所以不重複的數值有 13 個。
多值分析常用的功能包含 :
多值分析的使用格式大多與單值分析相同,本文介紹的只有 percentile_ranks 和 top_hits 稍有不同。請見下方範例。
範例
下面的範例可以看到 percentile_ranks 有特別指定 values,這裡指定 values 是代表要看這個值在百分等級統計出來排名是多少。以這個範例來說,要看 50 分和 78 分的百分等級排名,其實就和學校入學考試成績所公布的 PR 值是同樣的概念。
而 top_hits 預設會會傳搜尋結果的前 3 筆,這裡我們自訂為 2 筆。這裡同樣也可以指定要回傳哪些欄位以及排序等等。
下面是回傳的結果,特別看到 percentiles_score 和 percentile_ranks_score。percentiles_score 左邊所列出來的是 PR 值,右邊是對應的分數。而 percentile_ranks_score 左邊列出來的是要查看的分數,右邊是對應的 PR 值。
桶型聚合會建立一個或多個桶子,並將 Document 分類放進這些桶子。常見的桶型聚合有以下幾個 :
terms 會依照單詞進行分桶。
範例
terms 預設會回傳 10 筆分桶的結果,這裡因為我們的 Document 有 14 筆,所以指定回傳 15 筆來顯示出所有的分桶情況。
下面是輸出的結果,可以看到總共分了 13 個桶子,兩個 socre 為 58 的 Docuemnt 被分進了同一個桶子。
range 會依照指定區間進行分桶。
範例
指定區間時,會包含 from 指定的數值,to 所指定的數值則不會被包含,也就是 from <= x < to。
以下面這個範例來說會分成三個桶子,分別是 x < 60、60 <= x < 90、x >= 90。
下面是輸出的結果,可以看到分成了三個桶子,每個桶子各分到了一些 Document。
date_range 會依照日期進行分桶。
範例
首先要先建立一組有日期的 Document,如下 :
接著指定要分成不同桶子的時間區間。這裡的日期可以用 now-10d
這種寫法,就是現在時間減 10 天。詳細用法請參考 Elasticsearch 官網。
下面是輸出的結果,可以看到以 2020-07-23 這個日期分開為兩個桶子。
histogram 會依照指定數值作為間隔區間分桶。
範例
這個範例指定 100 為間隔來分桶,interval 可以指定間隔的數值。min_doc_count 可以指定顯示的桶子至少要有多少 Document,這裡設為 1 代表只顯示有被分配到 Document 的桶子。
下面是輸出的結果,可以看到每隔 100 就分了一個桶子,且 400 因為是空桶所以沒有顯示出來。
date_histogram 會依照指定時間間隔分桶。
範例
這個範例指定的時間區間是 1 週,也就是 interval 指定的 1w。更多時間區間請參考 Elasticsearch 官網。
下面是輸出的結果,可以看到 7-13、7-20、7-27 都是間隔 7 天。
桶型聚合支援分析之後再進一步分析,再次分析可以使用桶型聚合或是指標型聚合。只要在 aggs
中再加一層 aggs
就可以使用子分析。
範例
分桶之後再分桶,這個範例是先依照日期分桶,再依照價錢做分桶。
下面是輸出的結果,可以看到每個 buckets 裡面都還有一個 buckets。
管道型聚合會聚合其他聚合分析的結果和他們的指標。簡單來說就是針對其他聚合分析的結果再次進行聚合分析,且支援鍊式呼叫。例如,訂單每個月的平均銷收額是多少 ?
管道型聚合主要分為兩類 :
Parent : 在父聚合的結果上進行聚合分析並且可以計算出新的桶子或是將新的聚合結果加入到現有的桶子中。
下面是 Parent 的結構,可以看到有兩層 aggs
,第一層有 agg1
,第二層有 agg2
和 agg3
。agg3
是要加入的管道型聚合,agg3
會對 agg1
的結果進一步聚合分析,而 agg3
是 agg1
的子聚合,所以這種結構歸類為 Parent。
Sibling : 在兄弟 (同級) 聚合的結果上進行聚合分析。計算出一個新的聚合結果,結果與兄弟聚合的結果同級。
下面是 Sibiling 的結構,可以看到有兩層 aggs
,第一層有 agg1
和 agg3
,第二層有 agg2
。agg3
是要加入的管道型聚合,agg3
會對 agg1
的結果進一步聚合分析,而 agg1
和 agg3
是在同一層的 aggs
,也就代表他們是同等級的聚合,所以這種結構歸類為 Sibling。
每個管道型聚合都需要指定 buckets_path 這個參數,這個參數用於指定其他的聚合。
指定 buckets_path 的語法 :
>
,指定父字聚合關係。例如,"agg_parent>agg_son"。.
,指定聚合的指標。<name of the aggregation>
,直接指定聚合名稱。<name of the metric>
,直接指定指標名稱。agg_name[>agg_name]*[.metrics]
,綜合上方的方式指定完整的路徑。Parent 提供了以下幾個常用的功能 :
derivative 用於計算和父聚合的結果的導數值。簡單來說就是當分出了第一桶之後,第一桶的結果會被拿去和第二桶的結果計算他們的導數,以此類推。而導數在這裡的定義其實是差距,也就是說第二桶的結果會去扣掉第一桶的結果,所得的值即為最後的導數值。
範例
下面這個範例首先可以看到 sales_per_week
先做了桶型聚合,接著 sales
再使用指標型聚合的 sum 來做子分析,將每一桶分到的 Document 的 price 加起來。
而 derivative_sales
會在每一桶做完之後去取得每一桶的導數 (差值)。
這個範例其實就是一個簡單的每週銷售額成長幅度的例子,首先 sales_per_week
先分類出同一週的銷售狀況 (Document) 放在同一堆 (Bucket),這時再將每一堆的銷售額 (Price) 加起來就會得到每一週各自的銷售總額。 derivative_sales
會再將前一週的銷售額減掉本週的銷售額就可以獲得銷售額的成長量。
下面是輸出的結果,可以看到第一桶沒有輸出 derivative_sales
,因為他沒有前一桶可以計算。第二桶和第三桶都可以看到 derivative_sales
是負的,因為前一桶的 sales 都比較大,所以扣下來就是負的。以這個範例來說,也可以看出來每週的銷售額是呈現負成長。
moving_avg 用於平滑化數據,例如像是 CPU 負載或是記憶體使用量等等。
範例
下面是輸出的結果,可以看到 moving_avg_sales 透過移動平均的計算得出了一個平滑化的數值。
cumulative_sum 用於不斷累加每一桶的結果。
範例
下面是輸出的結果,可以看到 cumulative_sum_sales 每次都會持續累加上去。
bucket_sort 用於排序分桶的結果。
範例
這裡指定以 sales 聚合的結果來做排序。
下面是輸出的結果,可以看到依照 sales 的大小排序顯示。
bucket_script 用於對多桶或單桶的結果進行計算。
範例
下面這個範例在 bucket_script_sales
的 buckets_path
中可以看到指定了一個參數 TotalSales
,這個參數對應到的是 sales
這個聚合的結果。
隨後便可以在 script 中編寫一段運算,這裡只簡單將結果乘以 2。
下面是輸出的結果,可以看到 bucket_script_sales
的結果都是 sales
的兩倍。
bucket_selector 用於依照指定的條件取出特定的桶子。
範例
下面的範例可以看到用了和 bucket_script 一樣的編寫 Script 的方式來指定條件。
下面是輸出的結果,可以看到原本應該還會有一桶的結果是 458,但因為小於 1000 所以被過濾掉了。
Sibiling 提供了以下這些常用的功能,這些功能大致與指標型聚合提供的是一樣的,差別在於指標型聚合是在計算一組 Document,而桶型聚合是在計算一組 Bucket。如下 :
下面僅以 avg_bucket 和 max_bucket 作為範例。
avg_bucket 用於計算同級聚合中指定的指標 (Metric) 的平均值。簡單來說就是當分了很多桶之後,每個桶又透過指標型聚合得出了一個值,例如總合。這時候,avg_bucket 就可以將每一桶的總和加起來算平均值。
avg_bucket 要求要計算的兄弟聚合一定要是多桶聚合,也就是結果不能只有一個桶子。如果只有一個桶子就沒有必要使用 avg_bucket。
範例
下面這個範例首先可以看到 sales_per_week
先做了桶型聚合,接著 sales
再使用指標型聚合的 sum 來做子分析,將每一桶分到的 Document 的 price 加起來。
最後 avg_weekly_sales
會指定他的兄弟聚合 sales_per_week
的 子聚合 sales
來做加總計算平均值。
這個範例其實就是一個簡單的每週平均銷售額的例子,首先 sales_per_week
先分類出同一週的銷售狀況 (Document) 放在同一堆 (Bucket),這時再將每一堆的銷售額 (Price) 加起來就會得到每一週各自的銷售總額。 avg_weekly_sales
會從這個計算出來的每週銷售額加起來算平均值,就可以取得每週的平均銷售額。
下面是輸出的結果,可以看到 avg_weekly_sales
顯示了計算出的每桶的平均。
max_bucket 用於取得有最大值的桶子。
範例
同樣以每週銷售額的例子來說, max_bucket
取得的就是銷售額最高的那一週。
下面是輸出的結果,可以看到 max_bucket_sales
輸出的值是最大的。
矩陣型聚合會在多個欄位 (Field) 上操作,並根據要求的欄位提取出值,產生一個矩陣結果。
目前矩陣型聚合只提供一個功能,matrix_stats。
matrix_stats 用於以矩陣型式列出指定欄位的一些數值計算。包含總數、平均值等等。但是這些結果實務上是較少用到的。
範例
下面這個範例指定了兩個欄位。
下面是輸出的結果,可以看到針對兩個欄位分別都計算出了一些數據。詳細每個數據代表什麼請參考 Elasticsearch 官網。
介紹了這麼多聚合的功能,最終的目的就是要讓查詢也可以搭配聚合,類似於 SQL 的結果可以透過 group by 來分群一樣。
範例
下面是一個簡單的範例,可以看到先透過 match 來查詢出 price 為 100 的 Document。接著再透過 date_range 來依照時間分桶。
下面是輸出的結果,可以看到查詢出的 5 筆 Document 被依照時間分成了兩桶。
本篇介紹了四種型式的聚合以及每個聚合所提供的一些功能。以上介紹的只是一些常用的功能,想了解更多功能請參考 Elasticsearch 官網。
[1] Elasticsearch 聚合分析詳解
[2] elasticsearch系列六:聚合分析(聚合分析簡介、指標聚合、桶聚合)
[3] Elasticsearch 系列 (3):Aggregation 聚合分析簡介
[4] Elasticsearch聚合 之 Histogram 直方圖聚合
[5] Elasticsearch聚合-Bucket Aggregations
[6] Aggregation | Elasticsearch
[7] aggregation 詳解4(pipeline aggregations)
[8] Elasticsearch聚合——Pipeline Aggregations
[9] es聚合操作時提示Fielddata is disabled on text fields by default
[10] 矩陣統計(Matrix Stats)
Elasticsearch
NoSQL