探索LLM在數位系統設計課程的應用

# 探索LLM在數位系統設計課程的應用 * 使用工具：ChatGPT-4o, Grok 3, Claude 3.7 Sonnet, Perplexity 一、 K-Map 解讀(圈圈代表1，空白代表0) i. ![圖片2](https://hackmd.io/_uploads/HJa8kk_Sxg.png) $x=\bar{A}\bar{B}C\bar{D}+ACD+BD$ 1. ChatGPT-4o 最終結果： ![圖片3](https://hackmd.io/_uploads/r1Jbg1_Blg.png) 可以發現GPT-4O完全正確。 2. Grok 3 最終答案： ![圖片4](https://hackmd.io/_uploads/r1EVxk_Sle.png) 可以發現Grok 3回答錯誤，且與正解相差甚遠。 3. Claude 3.7 Sonnet 最終答案： ![圖片5](https://hackmd.io/_uploads/SkZ8lJdBge.png) 可以發現Claude 3.7 Sonnet回答錯誤，且於正解相差甚遠。 ii. ![圖片6](https://hackmd.io/_uploads/S1GOgk_Bgl.png) $X\ =\bar{A}BD+BC\bar{D}+\bar{B}\bar{C}D+A\bar{B}\bar{D}$ 1. ChatGPT-4o 最終答案： ![圖片7](https://hackmd.io/_uploads/BJC2lkdHex.png) 可以發現GPT-4O只有BC是錯的化簡，其餘是正確的。 2. Grok 3 最終答案： ![圖片8](https://hackmd.io/_uploads/rJE0lkdBle.png) 可以發現Grok 3產出的最終答案和正解相差甚遠。 3. Claude 3.7 Sonnet 最終答案： ![圖片9](https://hackmd.io/_uploads/Sk0kbJ_Sxe.png) 可以發現Claude 3.7 Sonnet產出的答案和正解相差甚遠。二、邏輯電路設計的功能比較先前提要：根據上一題的兩個K-Map，我會先提供正確的K-Map化簡，然後分別請三個LLM去進行電路設計，並產生最精簡的版本。 i. $X=\bar{A}\bar{B}C\bar{D}+ACD+BD$ 1. ChatGPT-4o ![圖片10](https://hackmd.io/_uploads/SJ1bzJdBex.png) 2. Grok 3 ![圖片11](https://hackmd.io/_uploads/HkrzzJuBxl.png) 3. Claude 3.7 Sonnet ![圖片12](https://hackmd.io/_uploads/S1EmGydBxl.png) ii. $X=\bar{A}BD+BC\bar{D}+\bar{B}\bar{C}D+A\bar{B}\bar{D}$ 1. ChatGPT-4o ![圖片13](https://hackmd.io/_uploads/BJHDzJ_Sll.png) 2. Grok 3 ![圖片14](https://hackmd.io/_uploads/BJmOz1urxg.png) 3. Claude 3.7 Sonnet ![圖片15](https://hackmd.io/_uploads/HyfKzyOSee.png) 三、觀察與反思第一個K-Map的比較中我選兩個範例，第一張圖是不會超越邊界，較為簡單的，而第二張圖的化簡需要較多步驟。而可以發現簡單版本的只有ChatGPT-4o可以完全回答正確，且推理的過程是符合邏輯的，而Grok 3及Claude 3.7 Sonnet則無法回答正確，尤其是在Grok 3，它甚至無法正確判讀我上傳圖片，LLM讀取我上傳的圖片後，通常會用表格或是文字重複確認一次之後，才會進行推理，然而，Grok 3在讀取就出現問題，理當後面的推理也是錯的一大糊塗。而Claude 3.7 Sonnet則是僅部分正確判讀我所上傳的範例，像是第一張圖一共會有6個circle，但它只能正確讀對五個circle，因此導致推論判斷錯誤。而在K-Map第二張較難的圖，三個LLM皆無法正確回答。ChatGPT-4o的答對率有66.7%，是因為它在讀取輸入的圖檔有少讀取到一個，因此造成推理錯誤。而Grok跟Claude 3.7 Sonnet則完全與正確解答相去甚遠。因為輸入圖片讓LLM讀取並理解屬於多模態處理的範疇，因此我請Perplexity去幫我搜尋三個LLM分別進行多模態處理的成效，所得到的結果是ChatGPT-4o 在多模態整合和實時交互方面表現最佳，Grok 3 更適合需要深度推理和長文本生成的場景，但在模態範圍上稍顯局限，Claude 3.7 Sonnet 則以高效回應和內容創作見長。因此跟我的實驗產出的結果，趨勢大致相同。而在第二個邏輯電路設計的部分，我是採用跟第一題K-Map一樣的內容，差別則是這次我是直接把K-Map變成正確且已化簡過的邏輯式，直接餵給三個LLM進行邏輯電路設計，因為我認為三個LLM讀取文字邏輯式的能力是高於圖像讀取。三個LLM在回應邏輯電路的形式也有顯著差異，ChatGPT-4o可以提供我正確圖形的基本邏輯電路閘，也可以成功讀取我輸入的邏輯式，但他無法把正確的化簡邏輯式轉成電路圖。Grok 3無法提供邏輯電路圖，它只能用文字描述的方式告訴我，但它形容的是最接近正確解答的版本。Claude 3.7 Sonnet從輸出給我的基本邏輯閘都是錯誤的，且接線還會出現空格的部分，且與正確解答相去甚遠。而針對這三個LLM對此問題的表現，我再去詢問Perplexity的意見，他的回答如下：ChatGPT-4o 和 Claude 3.7 Sonnet 因其多模態能力和程式設計能力，可能在生成邏輯電路圖方面有較好的潛力。然而，具體效果取決於模型的實際應用和用戶提供的提示。Grok 3 在創意和實用性方面有優勢，但在複雜邏輯問題上可能不如前兩者。然而，在我所做的實驗中，Grok 3是表現最好的，其次是ChatGPT-4o，最後則是Claude 3.7 Sonnet，與Perplexity找到網路資源並推論的結果不盡相同，這也是未來可以繼續研究的部分。雖然LLM在我寫程式作業的時候幫助很大，但我發現在處理數位系統的作業時，LLM還是存在許多問題，我推論的原因是因為LLM是大語言模型，對於多模態處理還有許多加強空間，而我這次餵的資料是圖像及文字邏輯式，有些並不是該大語言模型的強項，或是我並沒有使用該模型最新的模型(例如ChatGPT-o1或o3)，它們的推論能力是比4o來得更好，而且使用Grok模型時，我也並未付錢，因此我覺得這些都會是造成錯誤的原因。