讨论 2019-11-04 = # 机器翻译中的冷门任务及衍生任务 ## 模型改进 模型改进虽然工作很多,但内容高度分化,具体每个系列的工作并不多。模型改进的工作主要出于两个动机,一是解决应用中遇到的问题,二是完善理论性质。第一类工作主要关注当下热点的问题,比如在翻译时,从左到右再从右到左,或者多种生成顺序混合。这一设计的初衷主要是应对现实问题的,也就是“头疼医头脚疼医脚”。第二类工作则更强调添加或完善了哪些性质,而机器翻译只是验证的舞台,例如对RNN中长时记忆问题的探讨,对Attention中positional embedding的探讨,对Attention本身形式的探讨等。 数据集: 标准的机器翻译数据集 评测: BLEU ## 语言学 与改进模型类似,但重点在于通过引入语言学知识解决问题,通常涉及embedding和额外的tag(syntactic, semantic)。另一方面,大数据往往可以替代先验知识,所以这类工作更常见于小数据和特殊语言对中。 数据集: 偏小,对语言有特殊性 评测: BLEU ## 对齐 由于与Attention机制有很大相似性,所以近年来又重新被重视起来,问题定义十分简洁,希望Attention机制与人类标注的对齐关系尽量一致。很多工作会借助regularization和reinforcement learning来控制Attention的行为。 数据集: 词级别对齐数据 评测: Accuracy ## 评测方法 文本生成任务中的“顽疾”,大量工作阐述了现有评测机制的局限性,但目前仍未有曙光。并且这个任务也与NLP的核心概念十分相关,要想要好的评测方法,必须清晰的建模语义。 数据集: 看设定 评测: 与人类对比 ## Exposure Bias 主要指由于teacher forcing导致训练数据分布和测试分布不一致的问题。注意不考虑训练集和测试集的差异,因为假设是独立同分布的。 数据集: 标注的机器翻译数据集 评测: BLEU,通常要看长度对BLEU的影响 ## 多模态和特殊场景 近年已经少见,有一部分学术一样不强,但工程需要很大。 比如对image caption的翻译(给定图片),结合语音信号的翻译。特定场合,比如购物,字幕的翻译等。这类工作的baseline通常是没利用额外信息,通用翻译模型的结果。 数据集: 有额外信息的平行语料 评测: BLEU
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.