# 探索LLM在數位系統設計課程的應用 * 使用工具:ChatGPT-4o, Grok 3, Claude 3.7 Sonnet, Perplexity 一、 K-Map 解讀(圈圈代表1,空白代表0) i. ![圖片2](https://hackmd.io/_uploads/HJa8kk_Sxg.png) $x=\bar{A}\bar{B}C\bar{D}+ACD+BD$ 1. ChatGPT-4o 最終結果: ![圖片3](https://hackmd.io/_uploads/r1Jbg1_Blg.png) 可以發現GPT-4O完全正確。 2. Grok 3 最終答案: ![圖片4](https://hackmd.io/_uploads/r1EVxk_Sle.png) 可以發現Grok 3回答錯誤,且與正解相差甚遠。 3. Claude 3.7 Sonnet 最終答案: ![圖片5](https://hackmd.io/_uploads/SkZ8lJdBge.png) 可以發現Claude 3.7 Sonnet回答錯誤,且於正解相差甚遠。 ii. ![圖片6](https://hackmd.io/_uploads/S1GOgk_Bgl.png) $X\ =\bar{A}BD+BC\bar{D}+\bar{B}\bar{C}D+A\bar{B}\bar{D}$ 1. ChatGPT-4o 最終答案: ![圖片7](https://hackmd.io/_uploads/BJC2lkdHex.png) 可以發現GPT-4O只有BC是錯的化簡,其餘是正確的。 2. Grok 3 最終答案: ![圖片8](https://hackmd.io/_uploads/rJE0lkdBle.png) 可以發現Grok 3產出的最終答案和正解相差甚遠。 3. Claude 3.7 Sonnet 最終答案: ![圖片9](https://hackmd.io/_uploads/Sk0kbJ_Sxe.png) 可以發現Claude 3.7 Sonnet產出的答案和正解相差甚遠。 二、 邏輯電路設計的功能比較 先前提要:根據上一題的兩個K-Map,我會先提供正確的K-Map化簡,然後分別請三個LLM去進行電路設計,並產生最精簡的版本。 i. $X=\bar{A}\bar{B}C\bar{D}+ACD+BD$ 1. ChatGPT-4o ![圖片10](https://hackmd.io/_uploads/SJ1bzJdBex.png) 2. Grok 3 ![圖片11](https://hackmd.io/_uploads/HkrzzJuBxl.png) 3. Claude 3.7 Sonnet ![圖片12](https://hackmd.io/_uploads/S1EmGydBxl.png) ii. $X=\bar{A}BD+BC\bar{D}+\bar{B}\bar{C}D+A\bar{B}\bar{D}$ 1. ChatGPT-4o ![圖片13](https://hackmd.io/_uploads/BJHDzJ_Sll.png) 2. Grok 3 ![圖片14](https://hackmd.io/_uploads/BJmOz1urxg.png) 3. Claude 3.7 Sonnet ![圖片15](https://hackmd.io/_uploads/HyfKzyOSee.png) 三、 觀察與反思 第一個K-Map的比較中我選兩個範例,第一張圖是不會超越邊界,較為簡單的,而第二張圖的化簡需要較多步驟。而可以發現簡單版本的只有ChatGPT-4o可以完全回答正確,且推理的過程是符合邏輯的,而Grok 3及Claude 3.7 Sonnet則無法回答正確,尤其是在Grok 3,它甚至無法正確判讀我上傳圖片,LLM讀取我上傳的圖片後,通常會用表格或是文字重複確認一次之後,才會進行推理,然而,Grok 3在讀取就出現問題,理當後面的推理也是錯的一大糊塗。而Claude 3.7 Sonnet則是僅部分正確判讀我所上傳的範例,像是第一張圖一共會有6個circle,但它只能正確讀對五個circle,因此導致推論判斷錯誤。而在K-Map第二張較難的圖,三個LLM皆無法正確回答。ChatGPT-4o的答對率有66.7%,是因為它在讀取輸入的圖檔有少讀取到一個,因此造成推理錯誤。而Grok跟Claude 3.7 Sonnet則完全與正確解答相去甚遠。因為輸入圖片讓LLM讀取並理解屬於多模態處理的範疇,因此我請Perplexity去幫我搜尋三個LLM分別進行多模態處理的成效,所得到的結果是ChatGPT-4o 在多模態整合和實時交互方面表現最佳,Grok 3 更適合需要深度推理和長文本生成的場景,但在模態範圍上稍顯局限,Claude 3.7 Sonnet 則以高效回應和內容創作見長。因此跟我的實驗產出的結果,趨勢大致相同。 而在第二個邏輯電路設計的部分,我是採用跟第一題K-Map一樣的內容,差別則是這次我是直接把K-Map變成正確且已化簡過的邏輯式,直接餵給三個LLM進行邏輯電路設計,因為我認為三個LLM讀取文字邏輯式的能力是高於圖像讀取。三個LLM在回應邏輯電路的形式也有顯著差異,ChatGPT-4o可以提供我正確圖形的基本邏輯電路閘,也可以成功讀取我輸入的邏輯式,但他無法把正確的化簡邏輯式轉成電路圖。Grok 3無法提供邏輯電路圖,它只能用文字描述的方式告訴我,但它形容的是最接近正確解答的版本。Claude 3.7 Sonnet從輸出給我的基本邏輯閘都是錯誤的,且接線還會出現空格的部分,且與正確解答相去甚遠。而針對這三個LLM對此問題的表現,我再去詢問Perplexity的意見,他的回答如下:ChatGPT-4o 和 Claude 3.7 Sonnet 因其多模態能力和程式設計能力,可能在生成邏輯電路圖方面有較好的潛力。然而,具體效果取決於模型的實際應用和用戶提供的提示。Grok 3 在創意和實用性方面有優勢,但在複雜邏輯問題上可能不如前兩者。然而,在我所做的實驗中,Grok 3是表現最好的,其次是ChatGPT-4o,最後則是Claude 3.7 Sonnet,與Perplexity找到網路資源並推論的結果不盡相同,這也是未來可以繼續研究的部分。 雖然LLM在我寫程式作業的時候幫助很大,但我發現在處理數位系統的作業時,LLM還是存在許多問題,我推論的原因是因為LLM是大語言模型,對於多模態處理還有許多加強空間,而我這次餵的資料是圖像及文字邏輯式,有些並不是該大語言模型的強項,或是我並沒有使用該模型最新的模型(例如ChatGPT-o1或o3),它們的推論能力是比4o來得更好,而且使用Grok模型時,我也並未付錢,因此我覺得這些都會是造成錯誤的原因。