--- title: BigQuery tags: GCP --- ## Google Cloud BigQuery --- ## Agenda - BigQuery介紹 - BigQuery介面 - 建立BigQuery --- ## BigQuery介紹 --- 沒有正確的硬件和基礎架構,存儲和查詢海量數據集可能既耗時又昂貴。 BigQuery是一個 企業數據倉庫 ,可通過利用Google基礎架構的處理能力來啟用超快速SQL查詢來解決此問題 --- ### 特性 * 簡單快速: 沒有伺服器、不需要資料庫管理員,利用SQL,輕易分析 TB 數量級的資料,最快可達到“秒”的等級 * 安全性高、穩定性高: BigQuery 可對資料自動加密和複製,確保安全性、可用性和耐用性,也可以利用 Google Cloud Identity & Access Management 系統設定和控制,提供更嚴密的資料保護機制。 --- * 分享: 可以設定群組類別,或是個人等級的資料分享 * 應用多: 支援各種BI(Business Intelligence)工具; 協同第三方強化資料整合至分析應用。 * 支援多種的資料存取方式: 可以使用REST API,執行列的命令,BigQuery所提供網路版本的圖形化界面,或是Google App Script。 除此之外,還可以將資料查詢的結果輸出到用戶端的電腦上,或是選擇用Google雲端儲存系統來儲存查詢的結果 --- ### BigQuery費用 * 儲存: 將資料載入至 BigQuery 後,必須支付資料儲存費用 * 查詢處理: 執行SQL指令、使用者定義函式,以及符合條件的資料操縱語言(DML)和資料定義語言(DDL)陳述式時產生的費用 --- 儲存空間分為以下三種: 1. Active storage(動態儲存): 過去 90 天內修改過的資料表或分區中儲存的資料量。 2. Long-term storage(長期儲存): 過去 90 天內未修改過的資料表或分區中儲存的資料量 (費用較低)。 3. Streaming inserts(串流插入): 系統會依據成功插入的資料列向您收費,資料載入至 BigQuery 為免費服務,每個資料列採計的最低資料量為 1 KB。 --- | | 動態儲存 | 長期儲存 | 串流插入 | | -------- | -------- | -------- | -------- | | 付費 | $0.02 / GB | $0.02 / GB | $0.01 / 200MB | | 免費 | 10GB / 月 | 10GB / 月 | 無 | --- 查詢分為以下兩種: 1. On-demand(以量計價): 價格取決於您執行的每個查詢所處理的資料量。 2. Flat-rate(固定費率): 購買專屬的查詢處理資源,不必支付個別查詢的費用。 --- | | 以量計價 | 固定費率 | | -------- | -------- | -------- | | 付費 | $1.10 / TB |$8,500 / 500運算單元 | | 免費 | 1 TB / 月 | 無 | --- ## BigQuery介面 ---  --- ### navigation panel(導覽面板) * 查詢紀錄:顯示歷史項目的查詢工作。 * 已儲存紀錄:顯示已保存和共享的查詢。 * 工作紀錄:歷史上部分顯示項目,出口和複印作業。 * 傳輸作業:轉讓部分打開BigQuery資料傳輸服務的用戶界面。 * 已排定查詢:計劃查詢部分顯示預定查詢。 * 保留項目:在BI引擎部分顯示的BI引擎控制台。 * 資源:展開一個項目以查看您有權訪問的數據集和表。 --- ### query editor(查詢編輯器) 撰寫及編輯所需的查詢語法(執行SQL指令) * 執行 * 儲存查詢 * 儲存檢視表 * 已排定查詢 * 其他選項: 可設定批次查詢以及設定查詢結果直接儲存 --- ### details panel(詳細訊息面板) 顯示數據集的信息及預定查詢相關設定 * 建立資料表 * 分享資料集 * 複製資料集 * 刪除資料集 --- ## 建立BigQuery --- ### 所需的權限: * bigquery.dataEditor * bigquery.dataOwner * bigquery.admin --- ### 建立資料集  --- ### 建立資料集成功  --- ### 建立資料表  --- ### 來源資料載入BigQuery: * 建立空白資料表 * Google Cloud Storage * Local Upload * Drive * Google Cloud Bigtable --- ### 資料檔案格式: * CSV * JSON * Avro * Parquet * ORC --- ### Google Cloud Storage建立資料表  --- ### 結構定義 * 自動偵測:系統會自動產生結構定義。 * 自行定義和輸入參數:空白資料需自行設定  --- ### 分區與叢集設定 透過分區資料欄篩選器查詢分區資料表。 減少系統掃描的資料量,控管費用及提升查詢成效 * 無分區 * 依擷取時間分區 --- ### 依擷取時間分區 * 分區裝飾器: 使您可以將數據加載到特定分區中 * 分區類型: 按日選項會每天產生一個分區,按選項會產生一個分區。  --- ### 分群順序 * 分群順序:在結構定義中指定的資料欄所含內容,將資料整理為大小適中的儲存空間區塊,進而提升特定類型查詢工作的成效。 BigQuery 會先進行分區,然後再執行分群作業  --- ### 進階選項 可設定寫入偏好、略過不明的值以及資料加密  --- ### 建立資料表成功  --- ### 使用SQL查詢匯入資料 SELECT * FROM sc-lab-2.amos_test.test0101 order by Member SELECT * FROM 專案.資料集.資料表 使用Member排序 ---  --- ### 儲存結果  --- ### 儲存查詢  --- ### 已儲存查詢 設定個人或專案內人員編輯此查詢 設定為對專案成員公開,無法復原至只有個人可編輯  --- ### 已排定查詢 設定起始時間  --- 需有已儲存查詢,才可設定成功  --- ### 查詢設定 可設定由BigQuery或Dataflow查詢  --- 設定執行查詢 立即開始執行或批次查詢 可切換使用舊版SQL或標準SQL做查詢指令  --- 參考資料 https://cloud.google.com/bigquery/what-is-bigquery?hl https://blog.gcp.expert/bigquery-authorized-view/
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up