翻譯問題

Abstract

為了能夠找到一個優質、快速、便宜的翻譯工具來進行大數據翻譯,這裡講述了一種自行研發的分數公式來判斷翻譯工具的好壞。

Formula

公式:

αi=n(CorrectWord)N×100
αj=1n(WrongWord)N×100

βi=n(CorrectSentence)N×100

βj=1n(WrongSentence)N×100

γi=(1PriceBudget+ϵ)×100

Score=i=1n(ω1αi+ω2βi+ω3γi)t+ϵ

其中的變數意義與評分標準如下:

  • 選字準確性 (
    α
    ):評估轉換後的繁體中文在選字上的準確性。
  • 文意準確性 (
    β
    ):評估轉換後的文本是否準確傳達了原始文本的意思。
  • 轉換價格 (
    γ
    ):基於轉換所需價格的一個分數,考慮轉換之成本。
  • n
    是評估的資料筆數,
    ϵ
    是一個非常小的正數,用以避免除以零的錯誤,
    t
    是轉換所需時間。
  • ω1=0.45
    (選字準確性)
  • ω3=0.1
    (轉換成本)
  • ω2=0.45
    (文意準確性)

十個句子的小實驗


序號 簡體 GPT3.5 Google Translate OpenCC
1 我昨天在网上看到一个链接,里面分享了一个博主的最新视频。 我昨天在網路上看到一個連結,裡面分享了一位部落客的最新影片。 我昨天在網上看到一個鏈接,裡面分享了一個博主的最新視頻。 我昨天在網上看到一個鏈接,裏面分享了一個博主的最新視頻。
2 这个博主的粉丝超多,每次发布视频都能引起热烈讨论。 這位部落客的粉絲超級多,每次發布影片都能引起熱烈討論。 這個部落客的粉絲超多,每次發布影片都能引起熱烈討論。 這個博主的粉絲超多,每次發佈視頻都能引起熱烈討論。
3 他最近开始做直播,每天晚上都会在网络上和粉丝互动。 他最近開始做直播,每天晚上都會在網路上和粉絲互動。 他最近開始做直播,每天晚上都會在網路上和粉絲互動。 他最近開始做直播,每天晚上都會在網絡上和粉絲互動。
4 这个网红的影响力越来越大,已经成为不少品牌的代言人。 這位網紅的影響力越來越大,已經成為不少品牌的代言人。 這個網紅的影響力越來越大,已經成為不少品牌的代言人。 這個網紅的影響力越來越大,已經成爲不少品牌的代言人。
5 他的视频内容非常有趣,经常能吸引大量观众观看和点赞。 他的影片內容非常有趣,經常能吸引大量觀眾觀看和按讚。 他的影片內容非常有趣,經常能吸引大量觀眾觀看和按讚。 他的視頻內容非常有趣,經常能吸引大量觀衆觀看和點贊。
6 我已经订阅了这个博主的频道,每次有新视频都会第一时间收到通知。 我已經訂閱了這位部落客的頻道,每次有新影片都會第一時間收到通知 我已經訂閱了這個部落客的頻道,每次有新影片都會第一時間收到通知。 我已經訂閱了這個博主的頻道,每次有新視頻都會第一時間收到通知。
7 他最新的一条视频已经在网上引起了广泛关注,讨论度很高。 他最新的一條影片已經在網路上引起了廣泛關注,討論度很高。 他最新的一部電影已經在網路上引起了廣泛關注,討論度很高。 他最新的一條視頻已經在網上引起了廣泛關注,討論度很高。
8 这个博主的直播间总是人气爆棚,观众们都非常喜欢和他互动。 這位部落客的直播間總是人氣爆棚,觀眾們都非常喜歡和他互動。 這個部落客的直播間總是人氣爆棚,觀眾都非常喜歡和他互動。 這個博主的直播間總是人氣爆棚,觀衆們都非常喜歡和他互動。
9 他利用社交媒体平台不断拓展自己的影响力,成为了一个网络红人。 他利用社群媒體平台不斷拓展自己的影響力,成為了一個網路紅人。 他利用社群媒體平台不斷拓展自己的影響力,成為了網路紅人。 他利用社交媒體平臺不斷拓展自己的影響力,成爲了一個網絡紅人。
10 我们班上有不少同学都是他的粉丝,经常在课间讨论他的最新视频。 我們班上有不少同學都是他的粉絲,經常在課間討論他的最新影片。 我們班上有不少同學都是他的粉絲,常常在課間討論他的最新影片。 我們班上有不少同學都是他的粉絲,經常在課間討論他的最新視頻。

計算結果

為了方便計算,我使用了十分制來簡化問題


選字準確性 (

α)
10分:翻譯完美無缺,選字準確,完全符合繁體中文的用法。
8-9分:翻譯非常好,選字大體準確,有少量不影響理解的小錯誤或不那麼常見的詞彙選擇。
6-7分:翻譯質量良好,選字基本準確,但存在一些錯誤或不適當的詞彙選擇,可能會輕微影響理解。
4-5分:翻譯尚可,選字有明顯錯誤,需要改進才能更好地反映原文意思。
1-3分:翻譯品質較差,選字錯誤多,影響文本意思的傳達和讀者理解。
0分:翻譯完全不可接受,選字錯誤嚴重,完全偏離了原文意思。

文意準確性 (

β)
10分:翻譯完美無缺,準確傳達了原文的全部意思,語句流暢自然。
8-9分:翻譯非常好,文意傳達準確,結構清晰,可能有微小的語句不自然但不影響總體理解。
6-7分:翻譯質量良好,大部分文意準確傳達,但有幾處不夠清晰或略有誤解。
4-5分:翻譯尚可,文意傳達有誤差,需要進一步調整以清晰表達原文意思。
1-3分:翻譯品質較差,文意傳達不清楚或有多處誤解,需要重大修正。
0分:翻譯完全不可接受,未能傳達原文的意思,或完全錯誤的解釋。


並交由GPT4來評分

# 定義初始得分
scores = {
    "GPT3.5": {
        "alpha": [8, 8, 9, 8, 8, 9, 9, 9, 8, 9], # 選字準確性
        "beta": [9, 9, 9, 8, 8, 9, 9, 9, 9, 9], # 文意準確性
        "gamma": [5] * 10  # 轉換成本,假設為5分
    },
    "Google Translate": {
        "alpha": [7, 8, 8, 8, 8, 8, 6, 8, 8, 8],
        "beta": [8, 8, 8, 8, 8, 8, 7, 8, 8, 8],
        "gamma": [10] * 10  # 免費
    },
    "OpenCC": {
        "alpha": [8, 7, 7, 7, 7, 7, 8, 7, 7, 7],
        "beta": [9, 8, 8, 7, 7, 8, 9, 8, 7, 8],
        "gamma": [10] * 10  # 免費
    }
}

# 原始權重設定
weights = {"alpha": 0.5, "beta": 0.3, "gamma": 0.2}

# 更新後的權重,更重視品質
weights_updated = {"alpha": 0.45, "beta": 0.45, "gamma": 0.1}

# 設定ε值
epsilon = 0.01

# 函數來計算調整後總分
def calculate_adjusted_scores(scores, weights):
    adjusted_scores = {}
    for tool, tool_scores in scores.items():
        total_score = 0
        for i in range(len(tool_scores["alpha"])):
            total_score += (weights["alpha"] * tool_scores["alpha"][i] + 
                            weights["beta"] * tool_scores["beta"][i] + 
                            weights["gamma"] * tool_scores["gamma"][i]) / (10 + epsilon)
        adjusted_scores[tool] = total_score / len(tool_scores["alpha"])
    return adjusted_scores

# 使用原始權重計算調整後總分
adjusted_scores_original = calculate_adjusted_scores(scores, weights)

# 使用更新後的權重計算調整後總分
adjusted_scores_updated = calculate_adjusted_scores(scores, weights_updated)

# 輸出結果
print("Original Adjusted Scores:", adjusted_scores_original)
print("Updated Adjusted Scores (Quality Focused):", adjusted_scores_updated)

結論

由於"品質"較成本重要故我假設三者的權重為

  • ω1=0.45
    (選字準確性)
  • ω3=0.1
    (轉換成本)
  • ω2=0.45
    (文意準確性)

而成本的打分方式為求簡單(未來可能更複雜),同樣採取10分制,10分為完全免費

得出

  • GPT3.5: 0.83
  • Google Translate: 0.80
  • OpenCC: 0.78

雷達圖

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →