# 運用 dbt 確保 End-to-End 資料品質 - 黃郁豪(Bruce Huang) {%hackmd @HWDC/BJOE4qInR %} >#### 》[議程介紹](https://hwdc.ithome.com.tw/2024/session-page/3248) >#### 》[填寫議程滿意度問卷|回饋建言給辛苦的講者](https://forms.gle/1q3LpmSWHyRpmVRTA) # Agenda [toc] ## 資料品質的工具以及趨勢 資料品質近年來越來越重要, ## AI時代下的資料品質更為重要 * 2/3的數據團隊在過去6個月內經歷了至少造成公司10萬美元或更多損失的數據事件 * 91%的數據領導者表示他們正在積極開發程式,但是2/3的領導者不相信他們的資料 # 資料品質的定義及工具 * 準確性 * 完整性 * 時效性 : 資料即時,使用者需要時可即時使用 # dbt簡介  高效率資料轉換以及品質管理工具 * 資料轉換 * 資料品質檢查 * Data Catalog ## 引入軟體工程文化特色 # Migo 基礎架構及data pipeline # Migo做甚麼?CDP顧客數據平台 | 會員忠誠方案 # Migo data tech stack # 資料品質錯誤情境 * 範例 * 導資料到mongo會員資料都沒有進來,才發現這3間客戶都提供空的資料 * 整理EDM資料的時候讓資料膨脹了,屬於寫code的人為疏失 * 統一table的名字的時候在下游進到SQLserver的時候使用到舊表名 # 透過dbt實昨資料品質的情境與做法 ## 歸納兩個資料品質檢查情境 * 給空資料 * 資料膨脹 * 引用舊表名 ## 情境1的準備工作 Anomaly Test,用統計的方式去檢查 Alert: 通知資料錯誤 ## 情境2的準備工作: dbt-dry-run & dbt test ## 情境2的準備工作: 程式碼異動前後的檢查 * BigQuery dataset 區分測試、正式環境 * 替代方案: Recce # Migo資料品質檢查流程總結 
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up