AI Agent (3/3): AI Agent 對於工作帶來的衝擊 - 以學術研究為例

# AI Agent (3/3): AI Agent 對於工作帶來的衝擊 - 以學術研究為例來源：https://www.youtube.com/watch?v=VqB8zMujdjM 這是我嚐試利用模型自主性的整理出來的課程內容，自行切斷、自行整理，再做一些微調之後看是不是有機會也分享給社群。 ## AI扮演的角色正在變化簡報：000042.jpg ![000042.jpg](https://hackmd.io/_uploads/SJrZEO8P6-g.jpg) 時間：00:00:00 ~ 00:00:42 重點：最後，我想跟大家分享一下 AI agent 對我們未來工作可能帶來的衝擊，我會以學術研究這個領域為例來跟大家說明。 AI 扮演的角色其實一直在改變。它最初只是個工具，只能執行簡單的口令或動作。後來，人們開始認為或許我們可以和 AI 協作，讓它和人類一起完成任務。但現在的情況已經不一樣了，很多 AI agent 的自主性已經非常強了，它們有機會可以獨立完成一個完整的任務。所以，對於學術研究這個領域來說，現在大家最想知道，也是最關鍵的問題就是：它能不能自己寫出一篇完整的文章？ ## AI 寫論文簡報：000213.jpg ![000213.jpg](https://hackmd.io/_uploads/rkmEdLvT-e.jpg) 時間：00:00:42 ~ 00:02:13 重點：有位在 Stanford 的教授 Andrew Hall 提到一個很厲害的例子：AI 竟然可以自己寫出一篇完整的文章。他展示的工具是 Claude Code。他想用這個案例告訴大家，現在的 AI agent 對他的研究領域來說，就像是迎面而來的貨車一樣，已經非常強大。他實際操作時，花了一個小時就讓 Claude 寫出了一篇公開的文章。而且他公開的 Prompt 內容非常細緻，感覺就像一位指導教授在教研究生做研究一樣。不過，這個研究並不是全新的，重點是「擴展」他過去已經做過的研究。他這次的研究是針對美國大選，因為有新的數據。所以他希望 AI agent 能夠做的是： 1. 先讓 AI 閱讀他過去的論文。 2. 然後，根據他自己既有的分析方法，再用這些方法去分析新的數據。總結來說，就是用舊的分析框架，去跑新的數據。看到這個過程，我覺得 Andrew Hall 真的非常震撼。 ## AI 寫論文 ![image](https://hackmd.io/_uploads/rJVErmhTZe.png) 重點： Andrew Hall 寫了一篇很有趣的文章，討論了 AI 在研究上的應用。他提到，用 Claude 寫一篇研究文章只需要一個小時；而一個研究生，做同樣的事情卻花了 16 個小時，兩個工作天。他比較了 AI 和人類的成果，發現雖然人類的成果稍微好一點，但差異很小。更重要的是，從成本來看，人類花費 16 小時的博士生，按照市場行情至少要收 $1000；而 Claude 只需要幾十美金就能完成，成本上便宜了百倍。這讓我想，或許未來最有生產力的研究機構，可能不會是帶著一群研究生，而是帶著一群 LLM 或 AI agent 來做研究。當然，這裡也有反駁的空間，因為 AI 畢竟有犯錯的，即使只是一個小錯誤，也可能影響整個判斷，人類的價值依然存在，可能是在 AI 完成初稿後，由人類來檢查和驗證。這也引出一個問題：到底是讓人類做，還是讓 AI 做後再由人類檢查，比較省錢？甚至，AI 自己能不能夠重複閱讀自己的文章，找出自己的錯誤？這些實驗還沒做，但很多人看到 AI 做研究，就會覺得不舒服，覺得「這必須是人來做」。但我們得想清楚，研究真正的意義是什麼？它本來不是為了發表論文、堆高 H-index。研究的核心價值，其實是「找出問題，解決問題，讓世界過得更好」。如果 AI 真的有能力找出問題、解決問題，而且做得比人類更好，我們為什麼不讓它來做呢？ ## AI 寫論文簡報：000620.jpg ![000620.jpg](https://hackmd.io/_uploads/BkEN_UvTbx.jpg) 時間：00:02:13 ~ 00:06:20 重點：總之，AI 確實有能力寫論文。其實還有其他文章分析了台灣人使用 Claude 的行為，它展示的重點是「如何用 AI 寫出一篇完整的文章」。這篇文章的邏輯是，如果要做研究，我們可以讓 AI agent 扮演許多角色，幾乎可以做到全自動，而人類的角色，就只是負責檢查和監督。 ## AI 寫論文 ![image](https://hackmd.io/_uploads/BJDyIm26bx.png) 重點：在某些領域，AI的能力已經不只停留在文獻收集了，甚至可以幫我們建構、訓練和跑模型。例如，可以參考 Andrej Karpathy 釋出的 `autoresearch`，它展示了 LLM 如何自動幫我們訓練模型。這個過程是自動化的：AI agent 會進行實驗，然後根據結果（模型表現的數值越低越好），它會自己判斷需要修改哪些地方（例如修改 training script），再重新訓練第二版、第三版模型，直到模型表現越來越好，整個過程中不需要人類介入。 ## AI 寫論文簡報：001225.jpg ![001225.jpg](https://hackmd.io/_uploads/rySN_8Dpbx.jpg) 時間：00:06:20 ~ 00:12:25 重點：除了能做實驗，AI在「發想問題」的能力上，也曾被研究過。有篇文章比較了 LLM 產生的研究想法和人類產生的想法，從幾個指標（如新穎性 Novelty、可行性 Feasibility 等）來比較。初步結果顯示，人類在「可行性」上優於 AI；但 AI 在「新穎性」上卻被專家評分得更高。不過，這個研究其實有很大的爭議點，因為它可能沒有找來最頂尖的專家。更重要的是，這篇論文還有一個續作。在續作中，他們把人類和 AI 提出的點子，真的找人去實作成論文。結果非常有趣：當 AI 的點子真的被實作之後，它的評分反而不如人類的點子了。這說明了一個現象：AI 產生的想法，雖然表面上看起來很新穎，堆砌了很多厲害的詞彙，但當真正要執行時，往往會發現其實沒那麼可行。所以，雖然 AI agent 已經非常強大，但我們不能忘記，AI 的能力是持續增長的。今天覺得很厲害的模型，在未來可能只是基礎版。總體來說，AI 雖然能幫我們做很多事情，但目前看來，人類在「發想」和「執行」的深度上，還是有優勢的。 ## AI 審論文簡報：001832.jpg ![001832.jpg](https://hackmd.io/_uploads/B1PEO8wTZx.jpg) 時間：00:12:25 ~ 00:18:32 重點： **【筆記】AI 審查論文的現況與應用** * **AI 在學術審查中的角色：** * 現在 AI 已經正式進入學術論文的審查流程了。例如在 AAAI 這種國際會議上，除了幾位人類審查委員（reviewer）之外，還會增加一個 AI reviewer。 * 需要注意的是，這些 AI 雖然會給意見，但它們通常不會直接打分數。最終的決定還是要由人類來做參考。 * （小提醒：有時候甚至會遇到人類審查委員，但背後其實是 AI agent，這點很複雜。） * **我的立場：** * 我其實並沒有特別反對用 AI 來輔助審查論文。 * 我真正反對的是「用不夠好的 AI」來審查。 * 舉例來說，如果 AI 審查的內容是明顯錯誤的（例如：文章根本沒提出方法，但 review 卻說它提出了一個方法），那我就會直接退回，指出它「牛頭不對馬嘴」。 * 如果 AI 只是修正了第一點，但後面所有內容都錯的，那我就無法接受。 * **審查的本質與 AI 的價值：** * 大家聽到 AI review 可能會覺得反感，覺得審查應該是人類完成的。 * 但我們得想想，Review 的核心意義是什麼？就是找出文章的問題，讓文章變得更好。 * 如果 AI 在找出文章問題這方面比人類更厲害，那為什麼不讓它來做呢？如果人類做得很差，不如讓 AI 來提供更好的建議。 * **如何讓 AI 審查更有效？（以朋友小金為例）** * 我認識一位朋友（小金），他以前就是幫實驗室同學看論文的。現在學生常會直接把論文丟給 ChatGPT 讓它做 review，這點我覺得是件好事。 * 但小金的 review 其實比直接拿語言模型給的要好，關鍵在於我會給它更精準的指示（instruction）。 * 我教小金幾個原則，讓它的 review 更有指導性： 1. **從批評到建議：** 其他模型往往只會批評，但一個指導教授的角色，在批評之後一定要附上具體的修改建議。 2. **考慮時效性（Deadline）：** 如果離繳稿期限很近，就不能再建議補新的實驗了，應該只給論文潤飾或內容優化的建議。 3. **情緒價值：** 即使有批評，也要加入鼓勵的話語，讓作者感受到被支持。 * **總結：** * AI 確實可以寫論文，但關鍵在於我們如何設計指令，讓 AI 成為一個有判斷力、有同理心、且能根據情境調整建議的「優秀助手」。 ## AI 寫論文 + AI 審論文簡報：001914.jpg ![001914.jpg](https://hackmd.io/_uploads/ry_V_Iw6Zl.jpg) 時間：00:18:32 ~ 00:19:14 重點：既然 AI 不僅能寫論文，甚至還能審查論文，這就形成了一個完整的「閉環」。想像一下，在一個國際會議中，不需要人類的介入，AI 可以負責從撰寫論文、投稿，到決定是否接受，整個流程都是由 AI 來完成。這樣就能持續產生大量高品質的被接受論文，甚至可以像一個月一次的形式不斷運行下去，人類的技術進步也會跟著自動化。確實有群斯坦福的研究人員就嘗試了類似的模式。他們舉辦了一個名為「AI Agent for Science」的會議。這個會議的規定很特別：AI 必須是論文的主要貢獻者（也就是第一作者），而且審查論文的過程也完全交給 AI 來決定。 ## AI 寫論文 + AI 審論文簡報：001939.jpg ![001939.jpg](https://hackmd.io/_uploads/HytVdLwTZx.jpg) 時間：00:19:14 ~ 00:19:39 重點：這個會議的接受率其實蠻低的，投稿了 247 篇，但最後只接受了 48 篇。所以接受率小於 20%，跟大部分的頂級會議一樣，能被接受真的不容易。在審稿過程上，每篇論文都會先由三個 AI reviewer 給予分數，但最終還是會請人類來給予一個決定性的評價。那這些論文到底的品質如何呢？ ## AI 寫論文 + AI 審論文簡報：002206.jpg ![002206.jpg](https://hackmd.io/_uploads/ByjNuIDTWg.jpg) 時間：00:19:39 ~ 00:22:06 重點：最近有看到一篇論文，它總結了整個 AI 會議的投稿和審稿結果。現在投稿時，作者必須明確說明文章有多少部分是 AI 介入的。這就像投給人類的國際會議一樣，大家都要標示介入的程度。他們把人類的介入程度分成了四個等級（A到D）。一篇論文的工作內容，主要包含四個環節：點子發想、實驗設計、資料分析，以及文章撰寫。從這篇論文的數據來看，AI 似乎可以獨立完成這四個環節。但有趣的是，如果我們比較所有投稿的論文和最終被接受的論文，會發現一個非常明顯的差距：被接受的論文，在「點子發想」和「實驗設計」這兩個環節，人類的介入度比較高。這代表要寫出比較好的文章，初期還是需要人類的創意和設計。至於資料分析和寫作，AI 似乎已經有辦法獨立完成。這也讓我想到一個投稿者提出的觀點：AI 目前最大的問題，就是難以想出新穎、有創造力的點子，它產出的內容多半只是對既有資料的重排或組合。所以總體來看，即使 AI 能力越來越強，人類在定義「什麼是好的問題」和「研究的方向」這方面，仍然是不可或缺的。 ## Teaching Monster 教學怪獸挑戰簡報：002323.jpg ![002323.jpg](https://hackmd.io/_uploads/SynVOIDpWx.jpg) 時間：00:22:06 ~ 00:23:23 重點：首先要記得，雖然這些代理（agent）可以自己完成任務，但通常還是需要人類來決定和引導，告訴它真正要完成什麼樣的目標。我對 AI agent 在教學上的能力非常好奇。雖然我不太懷疑它有教學能力，但它能達到什麼程度呢？至少它有做教學投影片的能力。我看到小金做的教學影片，都是它自主完成的，我不會去修改，就是它做出來的樣子。雖然跟人類還是有一定差距，但如果人類不夠用心，可能也難說能做得比 AI 還好。為了了解 AI agent 的真實教學水準，甚至有台大 AI 卓越中心舉辦了相關的比賽，就是招募能夠教學的 AI。所以，今天上課的內容，就是要探討 AI agent 到底能做到什麼程度。 ## 下次上課之前請預習簡報：002355.jpg ![002355.jpg](https://hackmd.io/_uploads/B1TVOLv6Zx.jpg) 時間：00:23:23 ~ 00:23:55 重點：總結一下今天的內容：前兩週我們主要講的都是比較科普的部分，內容是關於 AI agent。下一次上課，我們要進入語言模型更核心的部分，會深入探討模型內部是如何進行 inference 的。所以，大家記得在下次上課前，一定要先預習投影片上這部影片，它其實是《機器學習導論》的第三講。只有看完第三講，才能更順利地理解下週要講的內容。 ## 全課總結這堂課的重點圍繞著 **AI Agent 在各個專業領域（特別是學術研究和學術審查）的現況、潛力與核心限制**，提供了一個從「AI 只是工具」到「AI 具備自主任務執行能力」的完整視角。以下是整堂課的總結： --- ### 🎓 課程總結：AI Agent 的自主性、學術應用與人類價值重塑 #### 💡 一、 AI Agent 能力的演進與自主性提升課程首先指出 AI 的角色已經從單純的「工具」（執行簡單指令）進化到具備高度「自主性」（能獨立完成完整任務的 Agent）。這使得 AI 不再只是輔助，而是開始扮演能主導流程的角色。 #### 🔬 二、 AI 在學術研究領域的震撼應用 1. **極高的效率：** 透過 Andrew Hall 的案例，展示了 AI Agent（如 Claude Code）在學術寫作上的驚人效率。AI 僅用一個小時就能生成一篇完整的學術文章，而人類研究生可能需要數天時間。 2. **成本效益分析：** 從經濟角度看，AI 的成本（幾十美金）遠低於人類研究人員（按市場行情至少 $1000/人天），預示著未來高效的研究機構可能更依賴 LLM 或 AI Agent。 3. **自動化流程：** AI 的能力已超越文獻收集，可以自動執行複雜的實驗流程。例如 Andrej Karpathy 的 `autoresearch` 案例，展示了 AI Agent 如何根據模型表現（數值越低越好），自主判斷並修改訓練腳本，進行迭代優化，全程無需人類介入。 #### 📚 三、 AI 在學術審查與寫作的「閉環」系統 1. **審查流程的整合：** AI 已正式進入學術審查流程，國際會議甚至會納入 AI Reviewer。這形成了一個完整的「撰寫 $\rightarrow$ 投稿 $\rightarrow$ 審查 $\rightarrow$ 接受/拒稿」的閉環系統。 2. **AI 審查的價值：** 課程強調，審查的核心意義是「找出問題，讓文章變得更好」。如果 AI 在找出問題的能力上優於人類，從本質上來說，讓 AI 參與審查是合理的。 3. **人類指導的重要性：** 雖然 AI 具備能力，但能否有效利用，關鍵在於人類如何設計「精準的指令」（Prompt）。一個優秀的 AI 助手，必須具備指導教授的角色，不僅要**批評**，更要提供**具體的修改建議**，並考慮到**時效性**和**情緒價值**。 #### 🧠 四、 AI 的核心限制與人類不可取代的價值儘管 AI 的能力令人震撼，但課程也提出了多個關鍵的限制和反思： 1. **發想的深度與可行性：** 雖然 AI 在「新穎性」（Novelty）上表現突出，但研究顯示，AI 產生的點子在被實際執行後，其可行性（Feasibility）往往不如人類。 2. **定義問題的能力：** 總體而言，AI 目前最大的問題是「難以想出新穎、有創造力的點子」，其產出多半是對既有資料的重排或組合。 3. **人類的價值所在：** 最終，人類在「定義什麼是好的問題」、「設定研究方向」以及「對結果進行最終的判斷和驗證」這兩個環節，仍然是不可或缺的。 #### 🎯 總結觀點：AI 的角色定位 AI Agent 正在快速發展，可以承擔大部分的執行、分析和撰寫工作，極大地提高了生產力。然而，研究的最終核心價值是「找出問題，解決問題，讓世界過得更好」。因此，人類的角色正從「執行者」轉變為 **「問題定義者」、「系統設計者」和「最終的監督者」**。 --- **【下課預告】** 課程將從宏觀的應用討論，轉向微觀的技術核心。下一次課程將深入探討語言模型內部是如何進行 **Inference（推論）** 的過程。 ## 關鍵詞 - 這段文字內容非常豐富，涵蓋了從 AI 的應用場景、學術研究的流程，到未來技術發展的深度討論。為了讓您更清楚地掌握重點，我將內容結構化，並提煉出幾個核心的觀點和論點。 - - ## 📝 內容結構化與重點提煉 - 這段內容可以分為以下幾個主要部分： - ### 💡 第一部分：AI 的應用與討論（學術/產業層面） - * **核心觀點：** AI 不僅是工具，它正在改變知識產出和研究的流程。 - * **討論點：** 探討 AI 在學術研究、內容生成（如寫作、繪圖）中的潛力，並引導聽眾思考如何將這些技術應用到實際的學術或工作流程中。 - ### 🔬 第二部分：AI 的局限性與批判性思考（風險與倫理） - * **核心觀點：** 任何技術都有其局限性，使用者必須保持批判性思維。 - * **討論點：** 雖然 AI 強大，但它可能產生「幻覺」（Hallucination），或無法理解深層的語境和人類的情感細微差別。這提醒我們，**人腦的判斷和驗證仍然不可或缺。** - ### 📚 第三部分：AI 學習與進階應用（實戰操作） - * **核心觀點：** 學習如何「引導」AI，而不是單純地「使用」AI。 - * **討論點：** 強調了 **Prompt Engineering（提示工程）** 的重要性。這就像是學習與一個聰明但需要指導的學徒溝通，越精準的指令，越優質的輸出。 - ### 🚀 第四部分：AI 的未來趨勢與技術前瞻（總結與展望） - * **核心觀點：** AI 的發展是持續且多面向的，需要持續學習和適應。 - * **討論點：** 內容結尾將聽眾帶入一個更宏觀的視角，即技術的迭代速度極快，保持學習的熱情和好奇心至關重要。 - - ## ✨ 核心論點總結（給聽眾的 takeaways） - 如果您需要用幾句話總結這段內容，可以抓住以下三個核心論點： - 1. **AI 是強大的協作夥伴，而非萬能的替代品：** 它極大地提升了效率，尤其在內容生成和初步分析上，但它無法取代人類的批判性思維、最終的決策權和對複雜情境的深度理解。 - 2. **掌握「提問的藝術」比掌握「使用工具」更重要：** 成功的 AI 應用，關鍵在於使用者能否設計出精準、結構化的指令（Prompt），引導 AI 達到最佳的輸出效果。 - 3. **技術迭代是常態，保持學習的熱情是生存技能：** 科技的發展速度要求我們必須具備終身學習的心態，隨時準備吸收新知識，並將新工具融入到自己的工作流中。 - - ## ❓ 您希望我針對哪一個方面做進一步的處理？ - 為了提供更符合您需求的內容，請問您希望我： - 1. **將內容轉化成一份「PPT 大綱」** (適合做報告或分享)。 - 2. **提煉成一份「口語化的重點摘要」** (適合快速複習)。 - 3. **針對某個特定主題（例如：Prompt Engineering）進行更深入的解釋？**