為了能夠找到一個優質、快速、便宜的翻譯工具來進行大數據翻譯,這裡講述了一種自行研發的分數公式來判斷翻譯工具的好壞。
公式:
其中的變數意義與評分標準如下:
序號 | 簡體 | GPT3.5 | Google Translate | OpenCC |
---|---|---|---|---|
1 | 我昨天在网上看到一个链接,里面分享了一个博主的最新视频。 | 我昨天在網路上看到一個連結,裡面分享了一位部落客的最新影片。 | 我昨天在網上看到一個鏈接,裡面分享了一個博主的最新視頻。 | 我昨天在網上看到一個鏈接,裏面分享了一個博主的最新視頻。 |
2 | 这个博主的粉丝超多,每次发布视频都能引起热烈讨论。 | 這位部落客的粉絲超級多,每次發布影片都能引起熱烈討論。 | 這個部落客的粉絲超多,每次發布影片都能引起熱烈討論。 | 這個博主的粉絲超多,每次發佈視頻都能引起熱烈討論。 |
3 | 他最近开始做直播,每天晚上都会在网络上和粉丝互动。 | 他最近開始做直播,每天晚上都會在網路上和粉絲互動。 | 他最近開始做直播,每天晚上都會在網路上和粉絲互動。 | 他最近開始做直播,每天晚上都會在網絡上和粉絲互動。 |
4 | 这个网红的影响力越来越大,已经成为不少品牌的代言人。 | 這位網紅的影響力越來越大,已經成為不少品牌的代言人。 | 這個網紅的影響力越來越大,已經成為不少品牌的代言人。 | 這個網紅的影響力越來越大,已經成爲不少品牌的代言人。 |
5 | 他的视频内容非常有趣,经常能吸引大量观众观看和点赞。 | 他的影片內容非常有趣,經常能吸引大量觀眾觀看和按讚。 | 他的影片內容非常有趣,經常能吸引大量觀眾觀看和按讚。 | 他的視頻內容非常有趣,經常能吸引大量觀衆觀看和點贊。 |
6 | 我已经订阅了这个博主的频道,每次有新视频都会第一时间收到通知。 | 我已經訂閱了這位部落客的頻道,每次有新影片都會第一時間收到通知 | 我已經訂閱了這個部落客的頻道,每次有新影片都會第一時間收到通知。 | 我已經訂閱了這個博主的頻道,每次有新視頻都會第一時間收到通知。 |
7 | 他最新的一条视频已经在网上引起了广泛关注,讨论度很高。 | 他最新的一條影片已經在網路上引起了廣泛關注,討論度很高。 | 他最新的一部電影已經在網路上引起了廣泛關注,討論度很高。 | 他最新的一條視頻已經在網上引起了廣泛關注,討論度很高。 |
8 | 这个博主的直播间总是人气爆棚,观众们都非常喜欢和他互动。 | 這位部落客的直播間總是人氣爆棚,觀眾們都非常喜歡和他互動。 | 這個部落客的直播間總是人氣爆棚,觀眾都非常喜歡和他互動。 | 這個博主的直播間總是人氣爆棚,觀衆們都非常喜歡和他互動。 |
9 | 他利用社交媒体平台不断拓展自己的影响力,成为了一个网络红人。 | 他利用社群媒體平台不斷拓展自己的影響力,成為了一個網路紅人。 | 他利用社群媒體平台不斷拓展自己的影響力,成為了網路紅人。 | 他利用社交媒體平臺不斷拓展自己的影響力,成爲了一個網絡紅人。 |
10 | 我们班上有不少同学都是他的粉丝,经常在课间讨论他的最新视频。 | 我們班上有不少同學都是他的粉絲,經常在課間討論他的最新影片。 | 我們班上有不少同學都是他的粉絲,常常在課間討論他的最新影片。 | 我們班上有不少同學都是他的粉絲,經常在課間討論他的最新視頻。 |
為了方便計算,我使用了十分制來簡化問題
選字準確性 (
10分:翻譯完美無缺,選字準確,完全符合繁體中文的用法。
8-9分:翻譯非常好,選字大體準確,有少量不影響理解的小錯誤或不那麼常見的詞彙選擇。
6-7分:翻譯質量良好,選字基本準確,但存在一些錯誤或不適當的詞彙選擇,可能會輕微影響理解。
4-5分:翻譯尚可,選字有明顯錯誤,需要改進才能更好地反映原文意思。
1-3分:翻譯品質較差,選字錯誤多,影響文本意思的傳達和讀者理解。
0分:翻譯完全不可接受,選字錯誤嚴重,完全偏離了原文意思。
文意準確性 (
10分:翻譯完美無缺,準確傳達了原文的全部意思,語句流暢自然。
8-9分:翻譯非常好,文意傳達準確,結構清晰,可能有微小的語句不自然但不影響總體理解。
6-7分:翻譯質量良好,大部分文意準確傳達,但有幾處不夠清晰或略有誤解。
4-5分:翻譯尚可,文意傳達有誤差,需要進一步調整以清晰表達原文意思。
1-3分:翻譯品質較差,文意傳達不清楚或有多處誤解,需要重大修正。
0分:翻譯完全不可接受,未能傳達原文的意思,或完全錯誤的解釋。
並交由GPT4來評分
# 定義初始得分
scores = {
"GPT3.5": {
"alpha": [8, 8, 9, 8, 8, 9, 9, 9, 8, 9], # 選字準確性
"beta": [9, 9, 9, 8, 8, 9, 9, 9, 9, 9], # 文意準確性
"gamma": [5] * 10 # 轉換成本,假設為5分
},
"Google Translate": {
"alpha": [7, 8, 8, 8, 8, 8, 6, 8, 8, 8],
"beta": [8, 8, 8, 8, 8, 8, 7, 8, 8, 8],
"gamma": [10] * 10 # 免費
},
"OpenCC": {
"alpha": [8, 7, 7, 7, 7, 7, 8, 7, 7, 7],
"beta": [9, 8, 8, 7, 7, 8, 9, 8, 7, 8],
"gamma": [10] * 10 # 免費
}
}
# 原始權重設定
weights = {"alpha": 0.5, "beta": 0.3, "gamma": 0.2}
# 更新後的權重,更重視品質
weights_updated = {"alpha": 0.45, "beta": 0.45, "gamma": 0.1}
# 設定ε值
epsilon = 0.01
# 函數來計算調整後總分
def calculate_adjusted_scores(scores, weights):
adjusted_scores = {}
for tool, tool_scores in scores.items():
total_score = 0
for i in range(len(tool_scores["alpha"])):
total_score += (weights["alpha"] * tool_scores["alpha"][i] +
weights["beta"] * tool_scores["beta"][i] +
weights["gamma"] * tool_scores["gamma"][i]) / (10 + epsilon)
adjusted_scores[tool] = total_score / len(tool_scores["alpha"])
return adjusted_scores
# 使用原始權重計算調整後總分
adjusted_scores_original = calculate_adjusted_scores(scores, weights)
# 使用更新後的權重計算調整後總分
adjusted_scores_updated = calculate_adjusted_scores(scores, weights_updated)
# 輸出結果
print("Original Adjusted Scores:", adjusted_scores_original)
print("Updated Adjusted Scores (Quality Focused):", adjusted_scores_updated)
由於"品質"較成本重要故我假設三者的權重為
而成本的打分方式為求簡單(未來可能更複雜),同樣採取10分制,10分為完全免費
雷達圖