# 全國科法研討會投影片講稿內容製作討論 ## 自然語言處理的困難之處 - 消歧異 - 詞法分析(lexical analysis):將字符序列轉換為標記(token)序列的過程 - 詞組的歧異切分:交叉歧義,組合歧義,真歧義 - 交叉歧義(字符串ACB,AC和CB都是一個漢語詞彙,會存在多種切分交叉在一起):「我們研究所有東西」,「研究所」和「有」或者「研究」和「所有」都是合理的切分方式。 - 組合歧義(字符串AB是一個詞彙,A和B同時也是詞彙,會存在不同語義下切分不同):「這個人手上有顆痣」,「目前人手緊缺」。前者是「人」/「手」兩個實體詞,後者是「人手」一個實體詞。 - 真歧義(怎麼切分都合理):「桌球拍賣完了」,切分為以下兩種情況都是合理的,「桌球拍/賣/完了」,「桌球/拍賣/完了」。 - 句法分析(semantic parsing):得到句子的句法結構 - 句法結構分析(syntactic structure parsing),又稱短語結構分析(phrase structure parsing),也叫成分句法分析(constituent syntactic parsing)。作用是識別出句子中的短語結構以及短語之間的層次句法關係。 - 依存關係分析,又稱依存句法分析(dependency syntactic parsing),簡稱依存分析,作用是識別句子中詞彙與詞彙之間的相互依存關係。 - 深層文法句法分析,即利用深層文法,例如詞彙化樹鄰接文法(Lexicalized Tree Adjoining Grammar, LTAG)、詞彙功能文法(Lexical Functional Grammar, LFG)、組合範疇文法(Combinatory Categorial Grammar, CCG)等,對句子進行深層的句法以及語義分析。 - 語用分析(詞語根據上下文有不同的含意) - e.g. 問題「你今天釣到魚了嗎?」,回答「運氣**好極**了,一條都沒有釣到。 - 上下文知識的獲取 - 上下文知識獲取中存在對省略部分進行補充的一步,稱為「省略恢復」 - 指代消解 - 文本中是否存在指代現象,準確識別指代的是什麼內容,機器遇到的這一不容小覷的難點稱為「指代消解」。 - 背景知識獲取 - 正確理解人類語言還要有足夠的背景知識,機器也需要了解約定俗成的東西 - 輸入的不規範性 - 錯別字 - 口語化 - 語法不對
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up