# 翻譯問題 ## $Abstract$ 為了能夠找到一個優質、快速、便宜的翻譯工具來進行大數據翻譯,這裡講述了一種自行研發的分數公式來判斷翻譯工具的好壞。 ## $Formula$ 公式: $$\alpha_i = \frac{n(CorrectWord)}{N} \times 100$$ $$\alpha_j = 1 - \frac{n(WrongWord)}{N} \times 100$$ $$\beta_i = \frac{n(CorrectSentence)}{N} \times 100$$ $$\beta_j = 1- \frac{n(WrongSentence)}{N} \times 100$$ $$\gamma_i = \left(1 - \frac{Price}{Budget+\epsilon}\right) \times 100$$ $$ Score = \frac{\sum_{i=1}^{n} \left(\omega_1 \cdot \alpha_i + \omega_2 \cdot \beta_i + \omega_3 \cdot \gamma_i\right)}{t+ \epsilon} $$ 其中的變數意義與評分標準如下: - **選字準確性** ($\alpha$):評估轉換後的繁體中文在選字上的準確性。 - **文意準確性** ($\beta$):評估轉換後的文本是否準確傳達了原始文本的意思。 - **轉換價格** ($\gamma$):基於轉換所需價格的一個分數,考慮轉換之成本。 * $n$ 是評估的資料筆數,$\epsilon$ 是一個非常小的正數,用以避免除以零的錯誤,$t$是轉換所需時間。 - $\omega_1 = 0.45$(選字準確性) - $\omega_3 = 0.1$(轉換成本) - $\omega_2 = 0.45$(文意準確性) ## 十個句子的小實驗 --------------------------------------------- | 序號 | 簡體 | GPT3.5 | Google Translate | OpenCC | |------|------------|---------------------|-------------------------|-----------------------| | 1 | 我昨天在网上看到一个链接,里面分享了一个博主的最新视频。 | 我昨天在網路上看到一個連結,裡面分享了一位部落客的最新影片。 | 我昨天在網上看到一個鏈接,裡面分享了一個博主的最新視頻。 | 我昨天在網上看到一個鏈接,裏面分享了一個博主的最新視頻。 | | 2 | 这个博主的粉丝超多,每次发布视频都能引起热烈讨论。 | 這位部落客的粉絲超級多,每次發布影片都能引起熱烈討論。 | 這個部落客的粉絲超多,每次發布影片都能引起熱烈討論。 | 這個博主的粉絲超多,每次發佈視頻都能引起熱烈討論。 | | 3 | 他最近开始做直播,每天晚上都会在网络上和粉丝互动。 | 他最近開始做直播,每天晚上都會在網路上和粉絲互動。 | 他最近開始做直播,每天晚上都會在網路上和粉絲互動。 | 他最近開始做直播,每天晚上都會在網絡上和粉絲互動。 | | 4 | 这个网红的影响力越来越大,已经成为不少品牌的代言人。 | 這位網紅的影響力越來越大,已經成為不少品牌的代言人。 | 這個網紅的影響力越來越大,已經成為不少品牌的代言人。 | 這個網紅的影響力越來越大,已經成爲不少品牌的代言人。 | | 5 | 他的视频内容非常有趣,经常能吸引大量观众观看和点赞。 | 他的影片內容非常有趣,經常能吸引大量觀眾觀看和按讚。 | 他的影片內容非常有趣,經常能吸引大量觀眾觀看和按讚。 | 他的視頻內容非常有趣,經常能吸引大量觀衆觀看和點贊。 | | 6 | 我已经订阅了这个博主的频道,每次有新视频都会第一时间收到通知。 | 我已經訂閱了這位部落客的頻道,每次有新影片都會第一時間收到通知 | 我已經訂閱了這個部落客的頻道,每次有新影片都會第一時間收到通知。 | 我已經訂閱了這個博主的頻道,每次有新視頻都會第一時間收到通知。 | | 7 | 他最新的一条视频已经在网上引起了广泛关注,讨论度很高。 | 他最新的一條影片已經在網路上引起了廣泛關注,討論度很高。 | 他最新的一部電影已經在網路上引起了廣泛關注,討論度很高。 | 他最新的一條視頻已經在網上引起了廣泛關注,討論度很高。 | | 8 | 这个博主的直播间总是人气爆棚,观众们都非常喜欢和他互动。 | 這位部落客的直播間總是人氣爆棚,觀眾們都非常喜歡和他互動。 | 這個部落客的直播間總是人氣爆棚,觀眾都非常喜歡和他互動。 | 這個博主的直播間總是人氣爆棚,觀衆們都非常喜歡和他互動。 | | 9 | 他利用社交媒体平台不断拓展自己的影响力,成为了一个网络红人。 | 他利用社群媒體平台不斷拓展自己的影響力,成為了一個網路紅人。 | 他利用社群媒體平台不斷拓展自己的影響力,成為了網路紅人。 | 他利用社交媒體平臺不斷拓展自己的影響力,成爲了一個網絡紅人。 | | 10 | 我们班上有不少同学都是他的粉丝,经常在课间讨论他的最新视频。 | 我們班上有不少同學都是他的粉絲,經常在課間討論他的最新影片。 | 我們班上有不少同學都是他的粉絲,常常在課間討論他的最新影片。 | 我們班上有不少同學都是他的粉絲,經常在課間討論他的最新視頻。 | ------------------------------------------ ## 計算結果 為了方便計算,我使用了十分制來簡化問題 --------------- **選字準確性 (**$\alpha$**)** 10分:翻譯完美無缺,選字準確,完全符合繁體中文的用法。 8-9分:翻譯非常好,選字大體準確,有少量不影響理解的小錯誤或不那麼常見的詞彙選擇。 6-7分:翻譯質量良好,選字基本準確,但存在一些錯誤或不適當的詞彙選擇,可能會輕微影響理解。 4-5分:翻譯尚可,選字有明顯錯誤,需要改進才能更好地反映原文意思。 1-3分:翻譯品質較差,選字錯誤多,影響文本意思的傳達和讀者理解。 0分:翻譯完全不可接受,選字錯誤嚴重,完全偏離了原文意思。 **文意準確性 ($\beta$)** 10分:翻譯完美無缺,準確傳達了原文的全部意思,語句流暢自然。 8-9分:翻譯非常好,文意傳達準確,結構清晰,可能有微小的語句不自然但不影響總體理解。 6-7分:翻譯質量良好,大部分文意準確傳達,但有幾處不夠清晰或略有誤解。 4-5分:翻譯尚可,文意傳達有誤差,需要進一步調整以清晰表達原文意思。 1-3分:翻譯品質較差,文意傳達不清楚或有多處誤解,需要重大修正。 0分:翻譯完全不可接受,未能傳達原文的意思,或完全錯誤的解釋。 ---------------------- 並交由GPT4來評分 ```python # 定義初始得分 scores = { "GPT3.5": { "alpha": [8, 8, 9, 8, 8, 9, 9, 9, 8, 9], # 選字準確性 "beta": [9, 9, 9, 8, 8, 9, 9, 9, 9, 9], # 文意準確性 "gamma": [5] * 10 # 轉換成本,假設為5分 }, "Google Translate": { "alpha": [7, 8, 8, 8, 8, 8, 6, 8, 8, 8], "beta": [8, 8, 8, 8, 8, 8, 7, 8, 8, 8], "gamma": [10] * 10 # 免費 }, "OpenCC": { "alpha": [8, 7, 7, 7, 7, 7, 8, 7, 7, 7], "beta": [9, 8, 8, 7, 7, 8, 9, 8, 7, 8], "gamma": [10] * 10 # 免費 } } # 原始權重設定 weights = {"alpha": 0.5, "beta": 0.3, "gamma": 0.2} # 更新後的權重,更重視品質 weights_updated = {"alpha": 0.45, "beta": 0.45, "gamma": 0.1} # 設定ε值 epsilon = 0.01 # 函數來計算調整後總分 def calculate_adjusted_scores(scores, weights): adjusted_scores = {} for tool, tool_scores in scores.items(): total_score = 0 for i in range(len(tool_scores["alpha"])): total_score += (weights["alpha"] * tool_scores["alpha"][i] + weights["beta"] * tool_scores["beta"][i] + weights["gamma"] * tool_scores["gamma"][i]) / (10 + epsilon) adjusted_scores[tool] = total_score / len(tool_scores["alpha"]) return adjusted_scores # 使用原始權重計算調整後總分 adjusted_scores_original = calculate_adjusted_scores(scores, weights) # 使用更新後的權重計算調整後總分 adjusted_scores_updated = calculate_adjusted_scores(scores, weights_updated) # 輸出結果 print("Original Adjusted Scores:", adjusted_scores_original) print("Updated Adjusted Scores (Quality Focused):", adjusted_scores_updated) ``` # 結論 由於"品質"較成本重要故我假設三者的權重為 - $\omega_1 = 0.45$(選字準確性) - $\omega_3 = 0.1$(轉換成本) - $\omega_2 = 0.45$(文意準確性) 而成本的打分方式為求簡單(未來可能更複雜),同樣採取10分制,10分為完全免費 ## 得出 - **GPT3.5**: 0.83 - **Google Translate**: 0.80 - **OpenCC**: 0.78 雷達圖 ![xx](https://hackmd.io/_uploads/BkWKpWvC6.png)