###### tags: `AI`,`2022` {%hackmd BJrTq20hE %} # 資料結構 及 合適的資料擷取技術 1. 結構化資料(Structured):固定欄位、格式、順序。例如:csv、excel。 2. 半結構化資料(Semi-Structured):具有欄位,但不一致,部分有定義,部分有關聯。例如: XML、JSON。 3. 非結構化資料(Unstructured):有很多不同的資料元素,也沒有定義的資料結構或關聯。例如:文字、圖檔、音訊檔、Email等。 ## 合適的資料擷取技術 ### ABBYY FlexiCapture 適合用在**結構化資料**,EX: 表格/表單 ### ABBYY FlexiCapture for Invoices (FCI) 適合使用格式及訓練的方式,EX:發票 ### ABBYY NLP (single model per doc)、AIDA + ABBYY FRE (multiple models per doc) 逐行段落則適合使用自然語言處理的方式。 ### 監督學習法 混合型文件(需要識別標題等)因為較為複雜,適合使用集成學習法,也就是以一個系統化的方式將好幾個監督式學習的模型結合在一起,成為一個更強大的模型。例如:ABBYY NLP、AIDA + ABBYY FRE and/or FCE。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up