# AI Agent (3/3): AI Agent 對於工作帶來的衝擊 - 以學術研究為例
來源:https://www.youtube.com/watch?v=VqB8zMujdjM
這是我嚐試利用模型自主性的整理出來的課程內容,自行切斷、自行整理,再做一些微調之後看是不是有機會也分享給社群。
## AI扮演的角色正在變化
簡報:000042.jpg

時間:00:00:00 ~ 00:00:42
重點:
最後,我想跟大家分享一下 AI agent 對我們未來工作可能帶來的衝擊,我會以學術研究這個領域為例來跟大家說明。
AI 扮演的角色其實一直在改變。它最初只是個工具,只能執行簡單的口令或動作。後來,人們開始認為或許我們可以和 AI 協作,讓它和人類一起完成任務。但現在的情況已經不一樣了,很多 AI agent 的自主性已經非常強了,它們有機會可以獨立完成一個完整的任務。
所以,對於學術研究這個領域來說,現在大家最想知道,也是最關鍵的問題就是:它能不能自己寫出一篇完整的文章?
## AI 寫論文
簡報:000213.jpg

時間:00:00:42 ~ 00:02:13
重點:
有位在 Stanford 的教授 Andrew Hall 提到一個很厲害的例子:AI 竟然可以自己寫出一篇完整的文章。他展示的工具是 Claude Code。
他想用這個案例告訴大家,現在的 AI agent 對他的研究領域來說,就像是迎面而來的貨車一樣,已經非常強大。
他實際操作時,花了一個小時就讓 Claude 寫出了一篇公開的文章。而且他公開的 Prompt 內容非常細緻,感覺就像一位指導教授在教研究生做研究一樣。
不過,這個研究並不是全新的,重點是「擴展」他過去已經做過的研究。他這次的研究是針對美國大選,因為有新的數據。所以他希望 AI agent 能夠做的是:
1. 先讓 AI 閱讀他過去的論文。
2. 然後,根據他自己既有的分析方法,再用這些方法去分析新的數據。
總結來說,就是用舊的分析框架,去跑新的數據。看到這個過程,我覺得 Andrew Hall 真的非常震撼。
## AI 寫論文

重點:
Andrew Hall 寫了一篇很有趣的文章,討論了 AI 在研究上的應用。他提到,用 Claude 寫一篇研究文章只需要一個小時;而一個研究生,做同樣的事情卻花了 16 個小時,兩個工作天。
他比較了 AI 和人類的成果,發現雖然人類的成果稍微好一點,但差異很小。更重要的是,從成本來看,人類花費 16 小時的博士生,按照市場行情至少要收 $1000;而 Claude 只需要幾十美金就能完成,成本上便宜了百倍。
這讓我想,或許未來最有生產力的研究機構,可能不會是帶著一群研究生,而是帶著一群 LLM 或 AI agent 來做研究。
當然,這裡也有反駁的空間,因為 AI 畢竟有犯錯的,即使只是一個小錯誤,也可能影響整個判斷,人類的價值依然存在,可能是在 AI 完成初稿後,由人類來檢查和驗證。
這也引出一個問題:到底是讓人類做,還是讓 AI 做後再由人類檢查,比較省錢?甚至,AI 自己能不能夠重複閱讀自己的文章,找出自己的錯誤?這些實驗還沒做,但很多人看到 AI 做研究,就會覺得不舒服,覺得「這必須是人來做」。
但我們得想清楚,研究真正的意義是什麼?它本來不是為了發表論文、堆高 H-index。研究的核心價值,其實是「找出問題,解決問題,讓世界過得更好」。如果 AI 真的有能力找出問題、解決問題,而且做得比人類更好,我們為什麼不讓它來做呢?
## AI 寫論文
簡報:000620.jpg

時間:00:02:13 ~ 00:06:20
重點:
總之,AI 確實有能力寫論文。其實還有其他文章分析了台灣人使用 Claude 的行為,它展示的重點是「如何用 AI 寫出一篇完整的文章」。
這篇文章的邏輯是,如果要做研究,我們可以讓 AI agent 扮演許多角色,幾乎可以做到全自動,而人類的角色,就只是負責檢查和監督。
## AI 寫論文

重點:
在某些領域,AI的能力已經不只停留在文獻收集了,甚至可以幫我們建構、訓練和跑模型。
例如,可以參考 Andrej Karpathy 釋出的 `autoresearch`,它展示了 LLM 如何自動幫我們訓練模型。這個過程是自動化的:AI agent 會進行實驗,然後根據結果(模型表現的數值越低越好),它會自己判斷需要修改哪些地方(例如修改 training script),再重新訓練第二版、第三版模型,直到模型表現越來越好,整個過程中不需要人類介入。
## AI 寫論文
簡報:001225.jpg

時間:00:06:20 ~ 00:12:25
重點:
除了能做實驗,AI在「發想問題」的能力上,也曾被研究過。有篇文章比較了 LLM 產生的研究想法和人類產生的想法,從幾個指標(如新穎性 Novelty、可行性 Feasibility 等)來比較。
初步結果顯示,人類在「可行性」上優於 AI;但 AI 在「新穎性」上卻被專家評分得更高。
不過,這個研究其實有很大的爭議點,因為它可能沒有找來最頂尖的專家。
更重要的是,這篇論文還有一個續作。在續作中,他們把人類和 AI 提出的點子,真的找人去實作成論文。結果非常有趣:當 AI 的點子真的被實作之後,它的評分反而不如人類的點子了。
這說明了一個現象:AI 產生的想法,雖然表面上看起來很新穎,堆砌了很多厲害的詞彙,但當真正要執行時,往往會發現其實沒那麼可行。
所以,雖然 AI agent 已經非常強大,但我們不能忘記,AI 的能力是持續增長的。今天覺得很厲害的模型,在未來可能只是基礎版。總體來說,AI 雖然能幫我們做很多事情,但目前看來,人類在「發想」和「執行」的深度上,還是有優勢的。
## AI 審論文
簡報:001832.jpg

時間:00:12:25 ~ 00:18:32
重點:
**【筆記】AI 審查論文的現況與應用**
* **AI 在學術審查中的角色:**
* 現在 AI 已經正式進入學術論文的審查流程了。例如在 AAAI 這種國際會議上,除了幾位人類審查委員(reviewer)之外,還會增加一個 AI reviewer。
* 需要注意的是,這些 AI 雖然會給意見,但它們通常不會直接打分數。最終的決定還是要由人類來做參考。
* (小提醒:有時候甚至會遇到人類審查委員,但背後其實是 AI agent,這點很複雜。)
* **我的立場:**
* 我其實並沒有特別反對用 AI 來輔助審查論文。
* 我真正反對的是「用不夠好的 AI」來審查。
* 舉例來說,如果 AI 審查的內容是明顯錯誤的(例如:文章根本沒提出方法,但 review 卻說它提出了一個方法),那我就會直接退回,指出它「牛頭不對馬嘴」。
* 如果 AI 只是修正了第一點,但後面所有內容都錯的,那我就無法接受。
* **審查的本質與 AI 的價值:**
* 大家聽到 AI review 可能會覺得反感,覺得審查應該是人類完成的。
* 但我們得想想,Review 的核心意義是什麼?就是找出文章的問題,讓文章變得更好。
* 如果 AI 在找出文章問題這方面比人類更厲害,那為什麼不讓它來做呢?如果人類做得很差,不如讓 AI 來提供更好的建議。
* **如何讓 AI 審查更有效?(以朋友小金為例)**
* 我認識一位朋友(小金),他以前就是幫實驗室同學看論文的。現在學生常會直接把論文丟給 ChatGPT 讓它做 review,這點我覺得是件好事。
* 但小金的 review 其實比直接拿語言模型給的要好,關鍵在於我會給它更精準的指示(instruction)。
* 我教小金幾個原則,讓它的 review 更有指導性:
1. **從批評到建議:** 其他模型往往只會批評,但一個指導教授的角色,在批評之後一定要附上具體的修改建議。
2. **考慮時效性(Deadline):** 如果離繳稿期限很近,就不能再建議補新的實驗了,應該只給論文潤飾或內容優化的建議。
3. **情緒價值:** 即使有批評,也要加入鼓勵的話語,讓作者感受到被支持。
* **總結:**
* AI 確實可以寫論文,但關鍵在於我們如何設計指令,讓 AI 成為一個有判斷力、有同理心、且能根據情境調整建議的「優秀助手」。
## AI 寫論文 + AI 審論文
簡報:001914.jpg

時間:00:18:32 ~ 00:19:14
重點:
既然 AI 不僅能寫論文,甚至還能審查論文,這就形成了一個完整的「閉環」。
想像一下,在一個國際會議中,不需要人類的介入,AI 可以負責從撰寫論文、投稿,到決定是否接受,整個流程都是由 AI 來完成。這樣就能持續產生大量高品質的被接受論文,甚至可以像一個月一次的形式不斷運行下去,人類的技術進步也會跟著自動化。
確實有群斯坦福的研究人員就嘗試了類似的模式。他們舉辦了一個名為「AI Agent for Science」的會議。這個會議的規定很特別:AI 必須是論文的主要貢獻者(也就是第一作者),而且審查論文的過程也完全交給 AI 來決定。
## AI 寫論文 + AI 審論文
簡報:001939.jpg

時間:00:19:14 ~ 00:19:39
重點:
這個會議的接受率其實蠻低的,投稿了 247 篇,但最後只接受了 48 篇。所以接受率小於 20%,跟大部分的頂級會議一樣,能被接受真的不容易。
在審稿過程上,每篇論文都會先由三個 AI reviewer 給予分數,但最終還是會請人類來給予一個決定性的評價。那這些論文到底的品質如何呢?
## AI 寫論文 + AI 審論文
簡報:002206.jpg

時間:00:19:39 ~ 00:22:06
重點:
最近有看到一篇論文,它總結了整個 AI 會議的投稿和審稿結果。現在投稿時,作者必須明確說明文章有多少部分是 AI 介入的。這就像投給人類的國際會議一樣,大家都要標示介入的程度。
他們把人類的介入程度分成了四個等級(A到D)。一篇論文的工作內容,主要包含四個環節:點子發想、實驗設計、資料分析,以及文章撰寫。
從這篇論文的數據來看,AI 似乎可以獨立完成這四個環節。但有趣的是,如果我們比較所有投稿的論文和最終被接受的論文,會發現一個非常明顯的差距:
被接受的論文,在「點子發想」和「實驗設計」這兩個環節,人類的介入度比較高。這代表要寫出比較好的文章,初期還是需要人類的創意和設計。
至於資料分析和寫作,AI 似乎已經有辦法獨立完成。
這也讓我想到一個投稿者提出的觀點:AI 目前最大的問題,就是難以想出新穎、有創造力的點子,它產出的內容多半只是對既有資料的重排或組合。
所以總體來看,即使 AI 能力越來越強,人類在定義「什麼是好的問題」和「研究的方向」這方面,仍然是不可或缺的。
## Teaching Monster 教學怪獸挑戰
簡報:002323.jpg

時間:00:22:06 ~ 00:23:23
重點:
首先要記得,雖然這些代理(agent)可以自己完成任務,但通常還是需要人類來決定和引導,告訴它真正要完成什麼樣的目標。
我對 AI agent 在教學上的能力非常好奇。雖然我不太懷疑它有教學能力,但它能達到什麼程度呢?
至少它有做教學投影片的能力。我看到小金做的教學影片,都是它自主完成的,我不會去修改,就是它做出來的樣子。雖然跟人類還是有一定差距,但如果人類不夠用心,可能也難說能做得比 AI 還好。
為了了解 AI agent 的真實教學水準,甚至有台大 AI 卓越中心舉辦了相關的比賽,就是招募能夠教學的 AI。所以,今天上課的內容,就是要探討 AI agent 到底能做到什麼程度。
## 下次上課之前請預習
簡報:002355.jpg

時間:00:23:23 ~ 00:23:55
重點:
總結一下今天的內容:前兩週我們主要講的都是比較科普的部分,內容是關於 AI agent。
下一次上課,我們要進入語言模型更核心的部分,會深入探討模型內部是如何進行 inference 的。
所以,大家記得在下次上課前,一定要先預習投影片上這部影片,它其實是《機器學習導論》的第三講。只有看完第三講,才能更順利地理解下週要講的內容。
## 全課總結
這堂課的重點圍繞著 **AI Agent 在各個專業領域(特別是學術研究和學術審查)的現況、潛力與核心限制**,提供了一個從「AI 只是工具」到「AI 具備自主任務執行能力」的完整視角。
以下是整堂課的總結:
---
### 🎓 課程總結:AI Agent 的自主性、學術應用與人類價值重塑
#### 💡 一、 AI Agent 能力的演進與自主性提升
課程首先指出 AI 的角色已經從單純的「工具」(執行簡單指令)進化到具備高度「自主性」(能獨立完成完整任務的 Agent)。這使得 AI 不再只是輔助,而是開始扮演能主導流程的角色。
#### 🔬 二、 AI 在學術研究領域的震撼應用
1. **極高的效率:** 透過 Andrew Hall 的案例,展示了 AI Agent(如 Claude Code)在學術寫作上的驚人效率。AI 僅用一個小時就能生成一篇完整的學術文章,而人類研究生可能需要數天時間。
2. **成本效益分析:** 從經濟角度看,AI 的成本(幾十美金)遠低於人類研究人員(按市場行情至少 $1000/人天),預示著未來高效的研究機構可能更依賴 LLM 或 AI Agent。
3. **自動化流程:** AI 的能力已超越文獻收集,可以自動執行複雜的實驗流程。例如 Andrej Karpathy 的 `autoresearch` 案例,展示了 AI Agent 如何根據模型表現(數值越低越好),自主判斷並修改訓練腳本,進行迭代優化,全程無需人類介入。
#### 📚 三、 AI 在學術審查與寫作的「閉環」系統
1. **審查流程的整合:** AI 已正式進入學術審查流程,國際會議甚至會納入 AI Reviewer。這形成了一個完整的「撰寫 $\rightarrow$ 投稿 $\rightarrow$ 審查 $\rightarrow$ 接受/拒稿」的閉環系統。
2. **AI 審查的價值:** 課程強調,審查的核心意義是「找出問題,讓文章變得更好」。如果 AI 在找出問題的能力上優於人類,從本質上來說,讓 AI 參與審查是合理的。
3. **人類指導的重要性:** 雖然 AI 具備能力,但能否有效利用,關鍵在於人類如何設計「精準的指令」(Prompt)。一個優秀的 AI 助手,必須具備指導教授的角色,不僅要**批評**,更要提供**具體的修改建議**,並考慮到**時效性**和**情緒價值**。
#### 🧠 四、 AI 的核心限制與人類不可取代的價值
儘管 AI 的能力令人震撼,但課程也提出了多個關鍵的限制和反思:
1. **發想的深度與可行性:** 雖然 AI 在「新穎性」(Novelty)上表現突出,但研究顯示,AI 產生的點子在被實際執行後,其可行性(Feasibility)往往不如人類。
2. **定義問題的能力:** 總體而言,AI 目前最大的問題是「難以想出新穎、有創造力的點子」,其產出多半是對既有資料的重排或組合。
3. **人類的價值所在:** 最終,人類在「定義什麼是好的問題」、「設定研究方向」以及「對結果進行最終的判斷和驗證」這兩個環節,仍然是不可或缺的。
#### 🎯 總結觀點:AI 的角色定位
AI Agent 正在快速發展,可以承擔大部分的執行、分析和撰寫工作,極大地提高了生產力。然而,研究的最終核心價值是「找出問題,解決問題,讓世界過得更好」。因此,人類的角色正從「執行者」轉變為 **「問題定義者」、「系統設計者」和「最終的監督者」**。
---
**【下課預告】**
課程將從宏觀的應用討論,轉向微觀的技術核心。下一次課程將深入探討語言模型內部是如何進行 **Inference(推論)** 的過程。
## 關鍵詞
- 這段文字內容非常豐富,涵蓋了從 AI 的應用場景、學術研究的流程,到未來技術發展的深度討論。為了讓您更清楚地掌握重點,我將內容結構化,並提煉出幾個核心的觀點和論點。
-
- ## 📝 內容結構化與重點提煉
- 這段內容可以分為以下幾個主要部分:
- ### 💡 第一部分:AI 的應用與討論(學術/產業層面)
- * **核心觀點:** AI 不僅是工具,它正在改變知識產出和研究的流程。
- * **討論點:** 探討 AI 在學術研究、內容生成(如寫作、繪圖)中的潛力,並引導聽眾思考如何將這些技術應用到實際的學術或工作流程中。
- ### 🔬 第二部分:AI 的局限性與批判性思考(風險與倫理)
- * **核心觀點:** 任何技術都有其局限性,使用者必須保持批判性思維。
- * **討論點:** 雖然 AI 強大,但它可能產生「幻覺」(Hallucination),或無法理解深層的語境和人類的情感細微差別。這提醒我們,**人腦的判斷和驗證仍然不可或缺。**
- ### 📚 第三部分:AI 學習與進階應用(實戰操作)
- * **核心觀點:** 學習如何「引導」AI,而不是單純地「使用」AI。
- * **討論點:** 強調了 **Prompt Engineering(提示工程)** 的重要性。這就像是學習與一個聰明但需要指導的學徒溝通,越精準的指令,越優質的輸出。
- ### 🚀 第四部分:AI 的未來趨勢與技術前瞻(總結與展望)
- * **核心觀點:** AI 的發展是持續且多面向的,需要持續學習和適應。
- * **討論點:** 內容結尾將聽眾帶入一個更宏觀的視角,即技術的迭代速度極快,保持學習的熱情和好奇心至關重要。
-
- ## ✨ 核心論點總結(給聽眾的 takeaways)
- 如果您需要用幾句話總結這段內容,可以抓住以下三個核心論點:
- 1. **AI 是強大的協作夥伴,而非萬能的替代品:** 它極大地提升了效率,尤其在內容生成和初步分析上,但它無法取代人類的批判性思維、最終的決策權和對複雜情境的深度理解。
- 2. **掌握「提問的藝術」比掌握「使用工具」更重要:** 成功的 AI 應用,關鍵在於使用者能否設計出精準、結構化的指令(Prompt),引導 AI 達到最佳的輸出效果。
- 3. **技術迭代是常態,保持學習的熱情是生存技能:** 科技的發展速度要求我們必須具備終身學習的心態,隨時準備吸收新知識,並將新工具融入到自己的工作流中。
-
- ## ❓ 您希望我針對哪一個方面做進一步的處理?
- 為了提供更符合您需求的內容,請問您希望我:
- 1. **將內容轉化成一份「PPT 大綱」** (適合做報告或分享)。
- 2. **提煉成一份「口語化的重點摘要」** (適合快速複習)。
- 3. **針對某個特定主題(例如:Prompt Engineering)進行更深入的解釋?**