Deep Learning for Text Style Transfer: A Survey
paper
Definition
Style Definition
-
Linguistic
- 表現方式 (ex:選擇的詞彙、文法結構)
- 給人的感覺
Image Not Showing
Possible Reasons
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →
-
Data-Driven (本篇採用此定義)
- linguistic style (dataset剛好也有這種類別, ex: 幽默、禮貌…)
- content related
- ex: 根據 Yelp 中的評分高低,分成2組
- 緣由: 因為 dataset 裡面缺少很多類別的資料,只好找其他資料來彌補
-
差異
|
優點 |
缺點 |
Data-Driven |
與深度學習很契合 |
模糊不清的類別 |
Notation
|
Notation |
Meaning |
example |
|
a |
1種style |
formal |
|
a' |
與a相反的style |
informal |
|
parallel data |
non-parallel data |
|
有一個相反style的句子對應 |
無 |
現有的資料庫
詳細的收集方式先暫時跳過,之後有需要再回論文2.3看
Pa Parallel
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Style transfer evaluation
Automatic evaluation
BLEU
缺點
-
複製就能拿高分
- 因為style transfer 會跟原本的句子有很多相似的地方
- 解決方式: BLEU + PINC
-
跟人類判別的方式差很多
-
有些 dataset 沒有 gold reference 來評估好壞 (像 political 只有從 fb 蒐集來的資料)
所以分成3個面向來評分
Transferred Style Strength
先訓練一個style classifier 再透過他判斷生成的像不像
計算方式
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
在某些資料集判別的結果與人的評估結果有高度相關性 某些則完全不相關 原因為有些資料集的資料過於偏頗 不夠全面
Semantic Preservation
- 判斷2個句子的相似度
- 最新的做法是先將生成出的句子的style移除在判斷 目前表現最好的是 METEOR 與 WMD
Fluency
在遇到以下情況的時候效果會特別差
- 短的句子分數較高(句子越長,裡面的詞彙越多,意思越複雜)
- 出現越多一樣的字越高分(ex: 一直出現 good 會勝過換成 agreeable)
- 假如前後文的分數改變了,會影響到句子的分數
- 在訓練時使用的語料庫可能與實際應用時所遇到的不同,LM可能無法適應
- 不同的語料庫使用不同的LM得出的分數無法互相比較,難以判斷優劣
Human evaluation
- 優點
- 缺點
- 花費高(時間 & 金錢)
- 有些時候需要專家才有辦法評斷
- 兩組不同的人的評斷難以相互比較高低 看同一組資料可能給出不同的分數
Suggested Evaluation Settings for Future Work
目前不同的研究沒有使用相同的實驗設定,讓結果得比較變得更加不準確,作者建議應該要加入標準的評估方式,例如
-
在至少一個常用的data set上實驗
- such as the Yelp data prepreocessed by Shen et al. (2017) and its five human references provided by Jin et al. (2019), Amazon data preprocessed by Li et al. (2018), and formality data provided by Rao and Tetreault (2018)
-
使用目前性能最佳的模型作為基準
-
使用最常使用的評估方法
- 人工評估:根據精選論文列表對至少兩個最先進的模型進行評分。
- 自動評估:如果存在人工編寫的參考文本(例如,由Jin等人(2019)提供的Yelp數據集的五個參考文本),則至少報告與所有可用參考文本的BLEU分數,並報告只使用輸入文本進行評估時的BLEU分數
-
公開system output
Methods on Parallel Data
對於有人工參考的情況,作者建議至少使用所有可用參考的BLEU分數,例如Yelp數據集中由Jin等人(2019)提供的五個參考文本。如果沒有人工參考,則報告僅使用輸入的BLEU分數,也建議提供每個TST論文的系統輸出,以便未來的研究可以更好地重現人工和自動評估結果。發布系統輸出有助於未來的研究比較自動評估結果,因為可能有不同的腳本來評估BLEU分數,以及不同的風格分類器和語言模型。如果未來的研究可以建立一個在線排行榜,讓現有的工作上傳他們的輸出文件,並使用一套標準的自動評估腳本自動評估模型輸出,那將是對TST社區的很大貢獻。
作者接下來介紹了三種優化方向
- Multi-Tasking
- techniques
- data augmentation
to be continued…