人工智慧和計算的前沿：與 Yann LeCun 和 Bill Dally 的對話 [S73208]

人工智慧和計算的前沿：與 Yann LeCun 和 Bill Dally 的對話 [S73208] ![image](https://hackmd.io/_uploads/HkkqX5jnJl.png) https://biji.iflyink.com/xbew-webserver/recordPage.action?shareId=8eb39e62126a47bba7e513f4f22f6891 講者1：請歡迎比爾·多利 (Bill Dolly) 和楊·拉昆 (Yann Lecun)。嗯…… 講者2_Bill Doll：大家好！嗯……我們今天要稍微聊聊關於人工智慧 (AI) 的一些話題，希望你們會覺得有趣。楊，在過去一年裡，人工智慧領域發生了很多有趣的事情。在你看來，過去一年中最令人興奮的發展是什麼？講者3_Yann Lecun：有太多值得一提的了……不過我要告訴你們一件事，這可能會讓一些人感到意外。嗯，我現在對那些大型語言模型 (LLMs) 不再那麼感興趣了。你知道，那些東西已經落入產業界和產品開發者的手中，他們只是在邊緣上做些改進，試圖獲取更多數據，或者用更多計算資源生成合成數據 (synthetic data)。我認為還有更有趣的問題值得探討，特別是四個方面：第一，你如何讓機器理解物理世界 (physical world)？詹森 (Jensen) 今天早上在他的主題演講 (keynote) 中也提到了這一點。第二，你如何讓機器擁有持續一致的記憶 (consistent memory)？這個話題似乎沒什麼人談論。最後兩個問題是，你如何讓它們進行推理 (reason) 和規劃 (plan)？當然，有人正在努力讓大型語言模型 (LLMs) 具備推理能力。但在我看來，這種推理方式非常簡單化，我覺得應該有更好的方法來實現。所以，我現在對一些事情感到興奮，這些可能是科技社群或技術圈五年後才會開始熱衷的東西。但現在看起來，它們還不那麼吸引人，因為這些想法還停留在晦澀的學術論文中。講者2：但如果不是大型語言模型 (LLMs)，而是關於理解物理世界 (physical world)、擁有持續記憶 (persistent memory) 和進行規劃 (planning)，那麼…… 講者3：它的基礎模型 (underlying model) 會是什麼？嗯，現在很多人都在研究世界模型 (world model)。什麼是世界模型呢？世界模型是我們每個人腦海中都有的東西，它讓我們能夠操縱想法 (manipulate thoughts)。比如說，我們對當前世界有個模型：我知道如果我從上面推這個瓶子，它會翻倒；但如果我從底部推，它會滑動。如果你用力太大，它可能會爆開。我們在生命最初幾個月就獲得了這些物理世界的模型 (models of the physical world)，這讓我們能夠應對現實世界。而處理現實世界比處理語言要困難得多。所以，我認為要打造一個真正能應對現實世界的系統，我們需要的架構類型 (architecture) 跟現在的完全不同，對吧？現在的大型語言模型 (LLMs) 只是在預測下一個詞彙單元 (token)。講者2：詞彙單元 (tokens) 可以代表任何東西啊。比如說，你的自動駕駛車輛模型 (autonomous vehicle model) 使用來自感測器的詞彙單元 (tokens)，然後生成駕駛指令的詞彙單元 (tokens)。從某種意義上說，它是在對物理世界進行推理 (reasoning about the physical world)，至少能判斷哪裡安全駕駛，不會撞到電線桿。為什麼詞彙單元 (tokens) 不是表示物理世界 (physical world) 的正確方式呢？講者3：詞彙單元 (tokens) 是離散的 (discrete)。好吧，當我們談到詞彙單元 (tokens) 時，通常是指一個有限的可能性集合 (finite set of possibilities)。在典型的大型語言模型 (LLM) 中，可能的詞彙單元數量大約是10萬個左右，對吧？所以，當你訓練一個系統去預測詞彙單元 (tokens) 時，你永遠無法讓它精確預測出某個序列後面會跟著的具體單元。例如，你可以生成一個所有可能詞彙單元的機率分佈 (probability distribution)，就像一個長向量 (vector)，裡面有10萬個數字，數值介於0到1之間。我們知道怎麼做到這一點。但對於高維度 (high dimensional) 且連續的自然數據 (natural data)，比如影片 (video)，我們卻不知道該怎麼做。過去，所有試圖讓系統通過預測影片的像素層級 (pixel level) 來理解世界或建立心理模型 (mental models) 的嘗試，基本上都失敗了。即使是訓練一個像神經網路 (neural net) 這樣的系統來學習圖像的良好表示 (representations)，那些通過從損壞或變形的圖像版本中重建圖像 (reconstructing an image) 的技術，基本上也失敗了。不是完全不行，而是效果不如我們稱為聯合嵌入 (joint embedding) 的替代架構 (architectures) 來得好。聯合嵌入並不試圖在像素層級重建，而是學習圖像、影片或自然信號的抽象表示 (abstract representation)，然後在這個抽象表示空間 (representation space) 中進行預測。我經常舉的一個例子是：假設我拿著攝影機拍攝這個房間，然後移動鏡頭掃過這裡，停下來後讓系統預測影片的後續內容。它可能會預測這是一個房間，裡面有人坐著，等等。但它絕不可能預測出你們每個人的具體長相，對吧？這是完全無法預測的，從影片的初始片段來看更是如此。世界上有很多東西是無法預測的。如果你訓練一個系統去預測像素層級 (pixel level)，它會把所有資源浪費在試圖生成它根本無法發明的細節上。這完全是資源的浪費。過去20年來，我們一直在嘗試通過預測影片來進行監督式學習 (supervised learning)，但結果如何呢？只有在表示層級 (representation level) 上才有效。這意味著這些架構並不是…… 講者2： ……並不是生成式的 (generative)。你的意思是說，像變換器 (transformer) 這樣的模型，無法具備人類視覺的能力？但變換器在視覺任務上已經取得了很好的結果啊。講者3：我的意思正是如此，因為你確實可以在這些架構中使用變換器 (transformers)。只是我說的這種架構類型，叫做聯合嵌入預測架構 (joint embedding predictive architecture)。具體來說，你拿一段影片、一張圖像，或者任何東西，甚至是文字，輸入到一個編碼器 (encoder) 中，得到一個表示 (representation)。然後再拿後續的文字、影片或圖像的變換版本，也輸入到編碼器中。接著，系統會試著在這個表示空間 (representation space) 中進行預測，而不是在輸入空間 (input space) 中預測。講者2：對，所以你可以用相同的訓練方法，比如填空 (fill in the blanks)，只不過你是在這個表示空間 (representation space) 中操作，而不是在原始表示 (raw representation) 的層級上。講者3：這裡的難點在於，如果你不小心，或者沒有使用一些聰明的技巧 (smart techniques) 來處理這個問題，系統就會崩潰 (collapse)。基本上，它會完全忽略輸入，僅產生一個不變的、不具備輸入資訊價值的表示 (representation)。所以，你必須採取一些措施。你知道，直到五六年前，我們都沒有任何技術能防止這種情況發生。現在，如果你想把這個應用到一個代理系統 (agent system) 或一個能推理 (reason) 和規劃 (plan) 的系統，你需要一個預測器 (predictor)。這個預測器在觀察一段影片 (video) 時，能夠對當前世界的狀態 (state of the world) 提出一些想法。它需要做的是，根據我可能採取的某個想像中的行動 (action)，預測下一個世界狀態 (next state of the world)。所以，你需要一個預測器，能根據當前世界狀態和一個你設想的行動，預測出接下來的世界狀態。如果你有了這樣的系統，你就能規劃出一系列行動 (sequence of actions)，以達到特定的結果。這才是我們所有人進行規劃和推理的真正方式。我們不是在詞彙單元空間 (token space) 中做這些事。讓我舉個合理的例子吧。現在有很多所謂的代理推理系統 (agent reasoning system)。它們的運作方式是生成大量的詞彙單元序列 (sequences of tokens)，使用各種隨機方式 (stochastic) 產生不同的序列。然後，會有一個第二層神經網路 (neural net) 試圖從所有生成的序列中選出最好的那一個。這有點像在不知道如何寫程式的情況下編寫程式：你隨機寫出一堆程式，然後測試它們，保留那個能給出正確答案的。這完全是無望的。講者2：其實有論文提到超級優化 (super optimization) 正是這樣做的。講者3：對吧？講者2：對於短小的程式來說…… 講者3：對，對於短小的程式來說當然可以，因為它的可能性是有限的，可以窮舉 (exhaustive)。但如果規模變大，很快就變得完全不可行了。講者2：所以，現在很多人都在說通用人工智慧 (AGI)——或者我想你會稱它為先進機器智慧 (AMI)——即將到來。你的看法是什麼？你認為它什麼時候會實現？目前還有哪些差距？講者3：是的，我不喜歡通用人工智慧 (AGI) 這個詞，因為人們用它來指代具有人類層級智慧 (human-level intelligence) 的系統。但遺憾的是，人類智慧是非常專業化的 (super specialized)。所以稱它為「通用」，我認為是個誤解 (misnomer)。我更喜歡用「先進機器智慧」(AMI) 這個詞，我們念作「any」，只是個詞彙上的選擇。我認為我正在描述的這個概念——系統能夠學習世界中的抽象心理模型 (abstract mental models)，並用於推理 (reasoning) 和規劃 (planning)——我們大概在3到5年內就能很好地掌握這一點，至少在小規模上。之後就是擴展規模 (scaling up) 的問題了，直到達到人類層級的人工智慧 (human-level AI)。但歷史上，在人工智慧 (AI) 領域中，一代又一代的研究者發現了新的範式 (paradigm)，然後宣稱：「就在10年內，或者5年內，我們就能實現人類層級的智慧，或者比人類更聰明的機器。」過去70年來一直如此，每隔10年左右就有一波這樣的熱潮，但當前的這波潮流也可能是錯的。有人認為，你只需要擴大規模 (scale)，讓大型語言模型 (LLMs) 生成數千個詞彙單元序列 (sequences of tokens)，然後選出好的，就能達到人類層級的智慧。他們說，幾年內——比如2年——就能在資料中心裡造出一個「天才國度」(a country of geniuses)，這是某個匿名人士說的。我認為這完全是胡說八道。當然，未來不久，這些系統在某些應用上可能會達到博士級別 (PhD level) 的表現。但就整體智慧 (overall intelligence) 而言，我們還差得很遠。哦，當我說「很遠」時，可能是在十年左右的時間內會實現，所以也不是那麼遙遠。講者2：所以，嗯，人工智慧 (AI) 已經被應用在許多方面，改善了人類的生活狀況，讓人們的生活更輕鬆。你認為哪個人工智慧的應用是最引人注目的、最有利的？講者3：嗯，我的意思是，有些東西顯而易見。當然，我認為人工智慧 (AI) 對科學和醫學的影響，可能會比我們目前能想像的還要大得多，即使現在已經相當可觀了。你知道，不僅是在蛋白質摺疊 (protein folding)、藥物設計 (drug design) 這些研究領域，或者理解生命機制 (mechanisms of life)，還有短期內的應用。比如在美國，現在你去做醫學影像檢查 (medical imaging)，經常會有AI參與。如果是乳房X光檢查 (mammogram)，很可能會先用深度學習系統 (deep learning system) 預篩，檢測腫瘤 (tumors)。如果你去做核磁共振 (MRI)，待在機器裡的時間可能縮短到四分之一，因為現在我們可以用較少的數據恢復高解析度的MRI圖像 (high-resolution MRI images)。所以，有很多短期的影響。當然，還有我們的汽車——印度在這方面是個意外的亮點——現在大多數汽車都配備了至少駕駛輔助系統 (driving assistance system) 或自動緊急剎車系統 (automatic emergency braking system)。在歐洲，這已經是幾年前就要求的標準配備，這些系統能將碰撞事故減少40%，確實救了不少人命。但這些都是很顯著的應用，對吧？這些不是生成式AI (generative AI)，不是大型語言模型 (LLMs)，而主要是感知 (perception) 和一點控制 (control)，特別是用在汽車上。現在，當然，目前的大型語言模型 (LLMs) 或未來幾年內將出現的應用，在工業和服務業等方面也有很多用途。但是，我們也必須思考這些技術的局限性 (limitations)。部署這些系統並達到人們期望的準確度和可靠性 (accuracy and reliability)，比大多數人想像的要困難得多。特別是自動駕駛 (autonomous driving)，這一直是個不斷後退的目標 (receding horizon)。什麼時候能實現第五級自動駕駛 (Level 5 autonomous driving)？我認為這種情況會一直存在。人工智慧 (AI) 失敗的地方，通常不是基本技術，也不是那些炫目的展示 (flashy demos)，而是當你真正要部署和應用它，並確保它足夠可靠、與現有系統整合時，這就變得困難、昂貴，而且耗時超出預期。講者2：確實，像自動駕駛車輛 (autonomous vehicles) 這種應用，必須隨時都正確，否則可能有人受傷或死亡，準確度 (accuracy) 幾乎要達到完美。但還有許多應用，只要大多數時候做對了，就能帶來很大好處。比如一些醫療應用，醫生可以再次檢查；或者娛樂、教育這些領域，你只要做到利大於弊，錯誤的後果不至於是災難性的。講者3：完全正確。所以，對大多數系統來說，真正有用的，是那些能讓人更有生產力 (productive) 或更有創造力 (creative) 的系統。講者2：就像程式設計助手 (coding assistant)。講者3：對，就是助手 (assistant)。在醫學、藝術，甚至其他領域都是如此。講者2：你知道，生成文字或人工智慧 (AI) 不是在取代人，而是給他們提供強大的工具 (power tools)。講者3：嗯，未來某個時候可能會取代，但我們看看人們怎麼看待這一點吧。我的意思是，我們與未來系統——包括超級智慧 (super intelligence) 或超人類系統 (superhuman systems)——的關係，應該是我們當它們的老闆。你知道，它們就像一群超聰明的員工為我們工作。我不知道你怎麼想，但我喜歡和比我聰明的人一起工作。講者2：是啊，我也一樣。講者3：這是世界上最棒的事情。講者2：是的，所以反過來說，正如人工智慧 (AI) 在很多方面造福人類，它也有黑暗面 (dark side)。有人會用它來做像是生成深度偽造 (deep fakes)、假新聞 (false news) 之類的事情，可能會造成情感上的困擾 (emotional distress)。你對人工智慧的應用有什麼最大的擔憂？我們該如何緩解這些問題？講者3：嗯，有一件事我們已經很熟悉，就是用人工智慧 (AI) 作為對抗攻擊 (countermeasure against attacks) 的手段，不管這些攻擊是否來自AI。有一點可能讓人意外的是，儘管大型語言模型 (LLMs) 和各種深度偽造 (deep fakes) 技術已經存在好幾年了，但負責檢測和移除這些攻擊的同事告訴我，我們並沒有看到社交網路上生成式內容 (generative content) 大幅增加。當然，這類內容確實存在很多，但通常不會以最惡劣的方式發布，而且往往會被標記為合成內容 (synthetic)。所以，我們並沒有看到三四年前人們警告的那種災難情景 (catastrophe scenarios)，像是摧毀所有資訊之類的。我還想講一個有趣的故事。2022年——抱歉，不是2023年——我的同事組成了一個小團隊，訓練了一個大型語言模型 (LLM)，使用的是全部科學文獻 (scientific literature)，也就是他們能拿到手的技術論文。這個模型叫「Galactica」。他們公開了它，還附上一篇長篇論文描述訓練過程，提供了開源代碼 (open source code) 和一個可以試玩的展示系統 (demo system)。結果呢？這在推特圈 (Twitter sphere) 引起了強烈反彈。人們說：「這太可怕了，這會害死我們，會摧毀科學交流系統。現在任何傻瓜都能寫一篇關於吃碎玻璃好處的論文。」負面意見如海嘯般湧來，我那可憐的同事——一個只有五人的小團隊——晚上都睡不好覺，最後他們撤下了展示系統。他們保留了開源代碼和論文，但撤下了展示。我們的結論是：世界還沒準備好接受這種技術，而且似乎沒人感興趣。但三週後，ChatGPT出現了。講者2：好的。講者3：那就像是救世主第二次降臨一樣，對吧？我們當時看了看彼此說：「這是怎麼回事？剛剛發生了什麼？」講者2：嗯，我們實在無法理解公眾對這個的熱情，特別是在之前那個（Galactica）的情況下。講者3：所以，我認為開源 (open source) 的成功真的讓我很驚訝，特別是ChatGPT在公眾中的成功。這很大程度上是關於感知 (perception)。你知道，我覺得…… 講者2：關於ChatGPT的討論，並不是要寫學術論文 (scholarly paper) 或做科學研究。講者3：它基本上是一個你可以對話的東西，你可以問它任何問題，它試圖做到更廣泛、更通用的功能，對吧？所以在某種程度上，它對更多人來說更有用，或者說更貼近實用性。當然，這裡確實存在危險 (dangers)，也確實有各種類型的誤用 (misuse)。但我們的對策還是更好的AI。你知道，我之前提到不可靠的系統 (unreliable systems)，解決方法就是開發更好的AI系統——那些具備常識 (common sense)、推理能力 (capacity of reasoning)，能檢查答案是否正確，並評估自己答案可靠性的系統。現在的系統還沒完全做到這一點。但那些災難情景 (disaster scenario)，坦白說，我並不相信。我的意思是，我不覺得會發生那樣的事。講者2：我喜歡認為AI大多是用來做好事的，雖然裡面也有一點壞處。作為一個在大西洋兩岸都有家的人，你有很全球化的視野。你認為未來AI的創新會從哪裡來？講者3：嗯，它可以從任何地方來。世界上到處都有聰明人 (smart people)。沒有人能壟斷好點子 (good ideas)。有些人自視甚高，覺得不需要跟任何人交流就能想出所有好主意。但以我作為科學家的經驗來說，情況並非如此。好點子來自很多人的互動 (interaction)、想法的交流 (exchange of ideas)，還有最近這十年半左右，代碼的共享 (exchange of code)。這也是為什麼我一直是開源AI平台 (open source AI platforms) 的強力倡導者，我所在的機構也有部分採納了這種理念。我們並不像自己想像的那麼聰明，我們沒有所有好點子。關於深度學習 (deep learning) 的研究故事真的顯示，好點子可以從任何地方冒出來。比如在中國，有很多非常優秀的科學家 (scientists)。有個故事很多人應該知道：如果你問自己，過去十年中哪篇論文在所有科學領域中獲得了最多的引用 (citations)？那篇論文是2015年發表的，正好十年前，關於一種叫做殘差網路 (residual networks) 的神經網路架構 (neural net architecture)。這篇論文來自北京的微軟研究院 (Microsoft Research in Beijing)，由一群中國科學家完成。領銜作者是何愷明 (Kaiming He)。一年後，他加入了加州的FAIR（Facebook AI Research），在那裡待了八年，最近搬到了麻省理工學院 (MIT)。這說明什麼？全世界到處都有優秀的科學家。想法可以從任何地方冒出來。但要把這些想法付諸實踐，你需要大規模的基礎設施 (infrastructure)、大量的計算資源 (computation)，還需要給你的朋友、同事很多資金，對吧？去支持他們。講者2：有一個開放的智力社群 (open intellectual community) 能讓進展更快。因為有人在這邊想出了一半的好點子，另一個人在那邊想出另一半。如果他們能交流，事情就成了。但如果大家都封閉、孤立 (insular)，進展就不會發生。講者3：沒錯。還有另一件事，要讓創新的想法 (innovative ideas) 浮現出來，作為一個科學家——媒體也知道這一點——你需要給人們很大的自由度 (long leash)。你得讓人們真正去創新，而不是每三個月或六個月就壓迫他們交出成果。事實上，這正是我們看到的情況。比如LLaMA的誕生就是這樣。一個不太為人知的故事是，2022年在FAIR（Facebook AI Research），有好幾個大型語言模型 (LLM) 項目得到了領導層的大力支持和資源。但還有一個小規模的「海盜項目」(pirate project)，由巴黎的十幾個人組成，他們決定自己打造一個模型，因為他們有某種需求。這個項目後來就變成了LLaMA。那個大項目你從沒聽過，因為它被中止了。所以，即使你沒有所有的支持，只要你能在某種程度上隔絕管理層的干預，讓你獨立運作，你就能想出更好的點子，而不是被迫按照時間表創新。於是，這十幾個人做出了LLaMA 1。後來，當然，決定把這個作為平台，而不是另一個項目，然後我們圍繞它建立了一個團隊。講者2：我不是說LLaMA 2，而是後來它被開源 (open source) 了，這基本上在整個領域掀起了一場革命 (revolution)。然後有了LLaMA 3。截至昨天，LLaMA的總下載量 (downloads) 超過了10億次。我覺得這太驚人了。我讀到這個數字時，猜想這裡面包括你們很多人，但那些下載的人到底是誰啊，對吧？講者1：我們得感謝你們，因為他們肯定都得買硬體 (hardware)。哈哈，隨便說說。我們感謝你們賣出了那麼多GPU。是的，所以我們再多聊一點關於開源 (open source) 吧。謝謝你們。LLaMA真的是創新的，它代表了當前最先進的技術 (state of the art)。這個大型語言模型 (LLM) 以開放的方式提供，至少讓人們可以下載並自己運行它。這有什麼利弊呢？我的意思是，你們公司顯然投入了巨額資金來開發這個模型，訓練它、調優它，然後還免費釋出。這有什麼好處？又有什麼缺點？講者2：嗯，我認為如果你是一家期望直接從這項服務中賺取收入 (revenue) 的公司，而且這是你唯一的業務，那麼當然，把所有秘密公開可能對你不利。但如果你是一家像我們這樣的公司——某種程度上像Google——收入來源並不直接依賴於此。講者1：廣告 (advertising)。講者2：對，在Google的情況下是廣告收入，還有各種其他來源，也許未來還有更多不同的來源。但重要的不是你短期內能創造多少收入，而是你能不能打造出你想要開發的產品所需的功能 (functionality)。講者3：你能不能讓世界上最多聰明人 (smart people) 為它做出貢獻，對整個世界來說，如果其他公司將這個模型用於其他目的，對我來說並不會有什麼損失。他們並沒有一個社交網路 (social network) 可以建立在這個基礎上。所以，對Google來說，這更像是一個威脅 (threat)，因為顯然你可以用它來打造搜尋引擎 (search engines)。這可能就是為什麼他們對這種方式不那麼積極 (positive) 的原因。但我們還看到了另一個影響，比如PyTorch首先在技術社群 (community) 和LLaMA 2的生態中起了作用。基本上，它啟動了整個創業生態系統 (ecosystem of startups)。我們現在也在更大的產業中看到這一點：人們有時會用API來打造AI系統的原型 (prototype)，比如基準API (criteria API)。但到了部署 (deploy) 的時候，最具成本效益 (cost-effective) 的方法是用像LLaMA這樣的開源系統，因為你可以在本地 (on premise) 或其他開源平台上運行它。但從哲學 (philosophically) 角度來說，我認為最大的因素、最重要的理由，是為什麼我們需要開源平台 (open source platforms)。在不久的將來，我們與數位世界 (digital world) 的每一次互動都將由AI系統來調解 (mediated)。現在，像智慧電表市場 (smart meters market) 這樣的領域已經無處不在。我今天可以跟我的AI對話，問它任何問題。我們不相信人們會只依賴單一的助手 (assistant)，也不認為這些助手只會來自美國西海岸或中國的少數幾家公司。我們需要極其多樣化的助手 (diverse assistants)。它們需要能說世界上所有的語言，理解各種文化 (cultures)、價值體系 (value systems) 和興趣中心 (centers of interest)。它們還需要有不同的偏見 (biases)、政治觀點等等。這就像我們需要多元化的媒體 (diverse press) 一樣。如果我們都從相同的來源獲取相同的資訊，對民主 (democracy) 和其他一切來說都不是好事。所以，我們需要一個任何人都能使用的平台，來打造這些多樣化的助手群體 (diverse population of assistants)。現在，這只能透過開源平台實現。我認為這在未來會變得更加重要，因為如果你想要你的基礎模型 (foundation models) 能說世界上所有的語言並涵蓋一切，沒有一個單一實體 (entity) 能獨自做到這一點。誰會去收集世界上所有語言的數據，並公開分享呢？坦白說，沒有人願意把數據交出來——無論是我們還是其他人，沒有人想放棄自己的數據。世界上的各個地區可能願意將他們的數據貢獻給一個全球基礎模型 (global foundation model)，但不會真的交出數據。他們可能會參與訓練一個全球模型。我認為這就是未來的模式：基礎模型將是開源的 (open source)，以分散式方式 (distributed fashion) 訓練，世界各地的數據中心 (data centers) 可以存取不同的數據子集 (subsets of data)，從而訓練出一種跨越地域的模型 (crisis model)。這就是為什麼開源平台是完全不可避免的，而專有平台 (proprietary platforms)，我認為，終將消失。講者1：是的，這不僅對語言的多樣性 (diversity of languages) 和其他方面有意義，對應用 (applications) 來說也是如此。所以，一家公司可以下載LLaMA，然後在他們不願意上傳的專有數據 (proprietary data) 上進行微調 (fine-tune)。講者2：嗯，這正是現在正在發生的事情。大多數AI創業公司的商業模式 (business model) 基本上都是圍繞這個展開的，對吧？你知道的。講者1：是的，比如針對某些非常好的應用打造專業系統 (specialized system)。嗯，你知道，在詹森 (Jensen) 的主題演講 (keynote) 中，他提到了一個很棒的例子：用AI來做婚禮策劃 (wedding planning)，決定誰坐在桌子旁邊。這是一個很棒的例子，展示了訓練 (training) 和推理 (inference) 之間的權衡 (trade-off)。在某種情況下，你可以打造一個非常強大的模型 (powerful model)，投入大量資源去訓練它；或者你可以打造一個不太強大的模型，但讓它多次運行 (run in many passes)，這樣它也能推理並完成任務。你認為在打造一個強大模型時，訓練時間 (training time) 和推理或測試時間 (inference or test time) 之間的權衡是什麼？最佳點 (optimum) 在哪裡？講者2：首先，我認為詹森 (Jensen) 說得完全正確：一個能夠推理 (reason) 的系統最終會帶來更多能力 (power)。但我不同意的是，他認為當前大型語言模型 (LLMs) 通過增強推理能力的方式是正確的。講者1：你是說這種方式雖然有效，但不是正確的途徑？講者2：對，不是正確的途徑。我認為，當我們推理 (reason) 或思考時，實際上是在一種與語言 (language) 無關的抽象心理狀態 (abstract mental state) 中進行。講者1：所以你不喜歡從詞彙單元 (tokens) 中抽離出來，而是想在潛在空間 (latent spaces) 中進行推理？講者2：沒錯，就是這個術語，潛在空間 (latent space)。舉個例子，如果我請你想像一個立方體漂浮在你面前，然後我將這個立方體繞垂直軸旋轉90度，你可以在腦海中完成這個動作，這完全不涉及語言。一隻貓也能做到這一點。當然，我們無法用語言清楚地向貓描述這個問題。但你知道，當貓計劃跳到家具上的一個軌跡 (trajectory) 時，它們處理的事情遠比這複雜得多。這些行為比這個例子要複雜，而且與語言無關，當然也不是在詞彙單元空間 (token space) 中完成的——那就像是一連串行動序列。它們是在某種抽象的心理空間 (abstract mental space) 中實現的。所以，這是未來兩年的挑戰：找到新的架構 (architectures)，讓這種推理成為可能。這也是我最近一直在努力的方向。講者1：那麼，我們應該期待一種新模型 (new model) 嗎？一種能讓我們在這個抽象空間 (abstract space) 中進行推理的模型？講者2：嗯，我們稱它為JEPA，或者叫作聯合嵌入預測架構 (Joint Embedding Predictive Architecture)，我和我的同事們一起研究這個。過去幾年，我們已經發表了一系列論文，算是朝這個方向邁出的第一步。JEPA不是傳統的預測架構 (predictive architecture)，而是那些能夠學習抽象表示 (abstract representations) 的模型，並且能操作這些表示。它具備推理 (reason) 能力，還能生成行動序列 (sequences of actions)，以達成目標。我認為這就是未來。大約三年前，我寫了一篇很長的論文，詳細解釋了這可能如何運作。講者1：是的。嗯，你知道，要運行這些模型 (models)，你需要很棒的硬體 (hardware)。過去十年裡，GPU（圖形處理單元）的能力提升了大概5,000到10,000倍，這包括AI模型從開普勒 (Kepler) 到布萊克威爾 (Blackwell) 在訓練 (training) 和推理 (inference) 方面的進步。我們今天看到未來還會有更多提升，像是向外擴展 (scale out) 和向上擴展 (scale up)，這些都提供了額外的能力。在你看來，未來會有哪些發展？你期待什麼樣的東西能讓我們打造你的JEPA模型 (JEPA model) 以及其他更強大的模型？講者2：嗯，我的意思是，繼續努力吧！你知道，因為我們需要所有能得到的計算資源 (computation)。這種在抽象空間 (abstract space) 中推理 (reasoning) 的想法，在運行時 (run time) 會需要很高的計算成本 (computationally expensive)。這跟我們都很熟悉的一個概念有關。心理學家談到了系統一 (System 1) 和系統二 (System 2)。系統一 (System 1) 是指那些你不用刻意思考就能完成的任務。你習慣了這些任務後，就可以不用多想就完成它們。比如說，如果你是一個有經驗的司機，即使沒有駕駛輔助系統 (driving assistance)，你也能開車，不需要太專注。你可以同時跟別人聊天，或者做其他事情，等等。但如果你是第一次開車，或者剛開始的幾個小時，你會覺得這很困難…… 講者1：危險的。講者2：你得重新專注於你正在做的事情，對吧？當你面對各種災難情景 (catastrophic scenarios) 時，想像一下會發生什麼。系統二 (System 2) 會動用你整個前額葉皮質 (prefrontal cortex)，調用你的內部世界模型 (internal world model)，去弄清楚接下來會發生什麼，然後計劃行動 (plan actions)，讓好的結果發生。但當你熟悉這一切時，你就可以只用系統一 (System 1)，幾乎是自動地完成這些事。所以這個想法是，你從使用自己的模型 (model) 開始，就能完成一項任務，即使是你從未遇過的任務。零次學習 (zero shot)，對吧？你不需要特別訓練就能解決這個任務。你單純憑藉對世界的理解和你的規劃能力 (planning abilities) 就能做到。這正是當前系統所欠缺的。但如果你多次完成這個任務，它最終會被編譯成所謂的策略 (policy)，也就是一種反應系統 (reactive system)，讓你不需要計劃就能完成任務。所以，第一步是從推理 (reasoning) 到系統二 (System 2)，然後轉化為自動的、潛意識的反應策略，也就是系統一 (System 1)。現在的大型語言模型 (LLMs) 能做到系統一 (System 1)，它們也正試圖慢慢朝系統二 (System 2) 前進。但最終，我認為我們需要一種不同的架構 (architecture) 來提高效率。講者1：好吧，你認為這會是你的JEPA嗎？講者2：我認為這不會是生成式架構 (generative architecture)。如果你想要系統理解物理世界 (physical world)，物理世界比理解語言 (language) 要困難得多。我們常把語言視為人類智力能力 (intellectual capabilities) 的頂峰，但其實語言很簡單，因為它是離散的 (discrete)。它之所以是離散的，是因為它作為一種溝通機制 (communication mechanism) 必須如此，否則就無法抵抗噪音 (noise resistance)。如果不是這樣，你現在就聽不懂我在說什麼。所以，語言因為這個原因而簡單。但現實世界遠比這複雜得多。比如，你可能聽過我之前說過，當前的大型語言模型 (LLMs) 通常是用大約30兆個詞彙單元 (tokens) 訓練的，對吧？一個詞彙單元 (token) 通常約3個位元組 (bytes)，那就是9×10¹³到10¹⁴位元組 (bytes)。對我們任何人來說，要讀完這些數據得花超過40萬年，因為這幾乎涵蓋了網路上所有的文本數據 (text available on the internet)。講者1：心理學家告訴我們，一個4歲的孩子總共清醒了大約16,000小時。在這期間，我們的視覺皮層（visual cortex）通過視神經（optic nerve）接收了大約2吉字节（gigabytes）的數據，也就是每秒約2兆字节（megabytes）。如果粗略計算，將16,000小時乘以每小時3,600秒，得出這4年間總共約有10的14次方字节（10^14 bytes）的數據進入我們的視覺系統。換句話說，通過視覺接收到的數據量，相當於你需要花40萬年才能讀完的文本量。這告訴我們，想要實現通用人工智能（AGI, Artificial General Intelligence），無論你怎麼定義它，都是非常困難的。我目前在德克薩斯（Texas）進行訓練，但坦白說，我對進展不太滿意。講者1（接續）：所以，這又回到了硬體（hardware）的問題上。最近在脈衝系統（spiking systems）方面有了不少進展，有些人，比如說支持者們，他們從生物系統（biological systems）運作的類比中得到了啟發。他們認為，神經形態硬體（neuromorphic hardware）確實有它的角色和價值。你覺得在哪些地方可以看到它的應用呢？有更多的硬體選擇，這些硬體要嘛是補充通用處理器（GPUs, General Purpose Units），要嘛是直接取代它們，來推動人工智能（AI, Artificial Intelligence）的發展。講者2：嗯，這種事情短時間內不會發生。嘿，講完之後你得給我20美元哦。講者1：什麼？你說什麼？哈哈。講者2：嗯，好吧，我得先跟你說聲抱歉，因為我要講的可能有點沉重。當我在1988年開始在貝爾實驗室（Bell Labs）工作的時候，我所在的小組其實專注於為神經網絡（neural nets）開發模擬硬體（analog hardware）。我們打造了好幾代的模擬計算機神經網絡，從純模擬開始，後來發展到模擬與數位混合（mixed analog digital），再到90年代中期完全轉向數位化（completely digital）。但也就是在那個時候，大家對這方面的興趣開始消退，覺得這東西好像沒什麼前途了。問題在於，像這樣使用非主流（exotic）的學習原則或技術，會面臨一個很大的挑戰：當前的數位互補金屬氧化物半導體技術（CMOS, Complementary Metal-Oxide-Semiconductor）已經發展得非常成熟，它就像是處在一個很深的局部最佳點（local minimum）。想要讓替代技術（alternative technologies）追上來，不僅需要很長的時間，還得投入巨大的資金。而且，即使在理論層面上（principal level），這些替代技術到底有沒有優勢，其實也還不清楚。所以，像模擬系統（analog）、脈衝規則（spiking rules）或是脈衝神經網絡（spiking neural net）這樣的東西，聽起來好像有某種內在的優勢，但實際上，它們讓硬體重用（hardware reuse）變得非常困難。對吧？我指的是，我們現在用的每一塊硬體都太大、太快了，從某種意義上來說，你必須反覆利用同一塊硬體。你得把這塊硬體的功能倍增，去計算模型的不同部分。講者1：你是說模型（model）的不同部分嗎？嗯，你—— 講者2：對，你都知道這些，對吧？如果換用另一種硬體，基本上你就沒辦法同時處理多個任務。所以在你的神經網絡裡，每個神經元（neuron）都得對應一個實體的物理神經元（physical neuron）。這就意味著，你現在沒辦法把一個像樣大小的神經網絡塞進單一晶片（single chip）裡，你得分散開來。當然，這種方式成本不高，一旦你能做到這一點，速度會非常快，但它並不高效。為什麼呢？因為你得處理硬體之間的通訊（communication），這很麻煩，而且記憶體管理（memory）也會變得複雜。到最後，你還是得靠數位通訊（digital communication）來解決問題，因為這是唯一能有效抵抗噪音（noise resistance）的方法。說到這裡，我再分享一個有趣的資訊：其實大腦（brain）的情況很有意思。大多數動物的腦部，特別是絕大多數動物的神經元（neurons），都是通過脈衝訊號（spikes）來交流的。而這些脈衝訊號是二進制訊號（binary signals），也就是說，它們是數位的（digital），而不是模擬的（analog）。雖然神經元的計算層面（computational level）可能是模擬的，但神經元之間的通訊其實是數位的。只有極少數的例外，比如說很小的動物，像那種只有1毫米長的海兔（sea elegance，可能指C. elegans，即線蟲）。以下是根據您的要求，將內容修正為流暢的繁體中文演說，並參考英文與中文語意進行調整，同時修正錯誤並保留演講的完整性。英文名詞後括弧附上原文，語句力求自然且符合中文表達習慣。講者1：嗯，對，那種小蟲子（worm），是的。講者2：對，那是一種只有1毫米長的線蟲（worm，可能指C. elegans），它有302個神經元（neurons）。這些神經元不會產生脈衝訊號（spike），也沒有必要產生脈衝，因為它們不需要進行遠距離的通訊。所以在這種規模下，它們可以用模擬方式（analog communication）來交流。這告訴我們，即使我們想直接套用某種技術——我也不知道，比方說競爭性的技術（competition）——我們還是得想辦法使用數位通訊（digital communication）。至少為了記憶體（memory）的需求，這是必須的，其他方面暫且不論，這個問題目前還不明朗。我知道你已經多次推演過這些計算。我在這方面懂得肯定比你少得多，但我覺得這種突破短時間內不會發生。不過在某些特定的領域，比如邊緣運算（edge computation），可能會有一些機會。舉個例子，如果你想要一個超級便宜的微控制器（microcontroller），用來運行像吸塵器或割草機（lawn mower）的感知系統（perception system），那麼這種替代技術也許就有意義。你可以把整個系統塞進單一晶片（single chip）裡。或許可以用某種方式——我也不確定，比如改變記憶體（changed memory）之類的東西——來啟動權重（weights）。我知道有些人正在認真研究這類技術。講者1：你是說在某些記憶體技術（memory technologies），像是模擬（analog）和數位（digital）之間使用所謂的引腳（pins）嗎？你覺得這類技術有什麼角色嗎？有沒有潛力？我—— 講者2：當然有。我的意思是，我的一些同事對這方面真的很感興趣，因為他們想打造下一代的小型設備，比如智慧眼鏡（small glasses）的後繼產品。他們想要實現的是持續進行的視覺處理（visual processing），也就是說，處理過程要隨時隨地發生。但現在這還不可能，因為功耗（power consumption）是個大問題。就像影像感測器（image sensor）這樣的東西，你沒辦法讓它一直開著。要不然就像天堂一樣美好，但現實是電池（battery）幾分鐘就耗盡了。所以，一個可能的解決方案就是在感測器（sensor）上直接進行處理，而不是把資料從晶片（chip）裡移出去，因為資料傳輸（trafficking data）才是真正耗能的地方。對吧？耗能的不是運算本身，而是資料移動的過程。目前在這方面已經有不少研究，但我們還沒走到那一步。講者1：所以你覺得這是一個有前景的方向（promising direction）？嗯，我看到—— 講者2：絕對是個有前景的方向。事實上，生物學早就解決了這個問題，對吧？比如我們的視網膜（retina），它大約有6000萬個感光細胞（centers）。在視網膜前面，有四層透明的神經元（transparent neurons）負責處理訊號，把資料壓縮到100萬根視神經纖維（optical nerve fibers），然後傳送到我們的視覺皮層（visual cortex）。這個過程包含了壓縮（compression）和特徵提取（feature extraction），還有各種複雜的操作，目的是從系統中提取出最有用的資訊，同時把沒用的部分過濾掉。講者1：對，所以除了這些技術之外，其他新興技術（emerging technologies）呢？你有沒有看到像量子技術（quantum）、超導邏輯（superconducting logic），或是其他即將出現的東西，會在人工智能處理能力（AI processing capability）上給我們帶來巨大的進步，甚至達到超高品質（super quality）？講者2：嗯，或許我對這方面了解得還不夠多。以光學技術（optical）來說，坦白講，它一直都很令人失望。我記得在1980年代的時候，聽到有人談論神經網絡（neural nets）的光學實現（optical implementation），當時覺得非常驚艷，但這些想法從來沒有真正實現。技術當然是在不斷發展的，這是顯而易見的，很多事情未來可能會改變。但我認為，光學技術的問題在於成本太高，尤其是模擬部分（analog）。你在與數位系統（digital systems）介面轉換的過程中，會損失很多東西。至於量子技術（quantum），我對量子運算（quantum computing）抱持極大的懷疑態度。我覺得量子運算在中期內唯一可行的應用，可能就是模擬量子系統（simulating quantum systems）。比如說，我們要做量子化學（quantum chemistry）之類的研究嗎？也許還有其他應用？但老實說，對其他的可能性，我真的非常懷疑。講者1：好吧，你提到過打造人工智能（AI），讓它們能像幼小的動物寶寶一樣，從觀察中學習。你覺得這種能力對硬體（hardware）提出了什麼樣的需求？你認為我們需要如何發展硬體，才能實現這個目標？你能給我們多少支援？哦，不，我的意思是，這是一個問題——你願意投入多少？講者2：你是問我願意花多少錢嗎？哈哈。講者1：對啊，哈哈。你買得越多，省得越多，對吧？就像我們今天聽到的，你做得越多—— 講者2：沒錯！完全正確。嗯，是的，這不會便宜的。講者1：這不會—— 講者2：這不會是作弊，因為，嗯，我的意思是說到影片（video），好吧，讓我跟你分享一下我的一些同事大約在一年前做過的一個實驗。他們使用了一種技術，這種技術是基於自我監督學習（self-supervised learning），通過重建（reconstruction）來學習圖像表示（image representations）。我之前跟你說過的那種方法其實不太行得通。這個項目名叫「NAE Master to Encoder」。基本上，它是一個小型的玩具編碼器（toy encoder），也就是單一的編碼器（single encoder），很像我們熟知的那些東西，你知道的—— 講者1：嗯，對，對，沒錯。講者2：所以，這個實驗是這樣的：你拿一張圖像（image），然後故意移除一部分，甚至是很大一部分，來破壞它。接著，你訓練一個巨大的神經網絡（neural net），讓它重建出完整的圖像。這種重建是在像素層面（pixel level）進行的，或者說是令牌層面（token level）。然後，你把這個內部表示（internal representation）作為輸入，應用到下游任務（downstream task）上，比如物體識別（object recognition）之類的，這部分是監督訓練（supervised training）。這個方法還算可以運作，但你得用液冷（liquid cooled）的GPU集群（GPU clusters）來支撐，能量消耗大到像是得煮沸一個小池塘（small pond）才能冷卻下來。不過，這種方法的效果遠不如聯合嵌入架構（joint embedding architectures）好。你可能聽過像DINO或DOV Two這些名字，還有像是I-JEPA（Japan）之類的。這些聯合嵌入架構通常效果更好，而且訓練成本（training cost）其實更低。講者1：所以在聯合嵌入（joint embedding）中，你基本上是為兩個輸入設定了兩個權重空間（weight spaces），對吧？所以你會傾向於把所有東西都整合成一種—— 講者2：對，不是拿一張圖像（image），然後弄一個破壞或轉換過的版本（corrupted or transformed version），再從這個版本去重建完整的圖像。而是說，你直接拿完整的圖像和一個被破壞或轉換的版本，然後把這兩個都通過編碼器（encoders）處理。接下來，你試著—— 講者1：把這兩個連繫起來？講者2：對，你從被破壞的那個版本的表示（representation），去訓練出完整圖像的表示。這種方法叫做聯合嵌入預測架構（joint embedding predictive architecture）。它的效果更好，也更省錢。現在，到了2018年的時候，有人說：「嗯，這方法在圖像上好像還不錯，我們試試看能不能用在影片（video）上。」於是他們開始做實驗，把影片分解成16×16的圖塊（patches）。即使是一個短影片，這也會產生大量的圖塊。然後，他們訓練一個巨大的神經網絡（neural net），試著重建影片中缺失的圖塊，甚至預測未來的影片內容。這次需要的能量更大，不是煮沸一個小池塘，而是得煮沸一個小湖（small lake）。結果呢？這個項目基本上失敗了，最後被叫停了。現在我們有了另一個替代方案，叫做V-JEPA（V Japan）。我們目前正在接近第二版（version two）。它基本上還是屬於聯合嵌入預測架構（joint embedding predictive architecture）的一種，專門針對影片進行預測，但是在表示層面（representation level）上操作。目前看來效果還不錯。我們有個例子：第一版是基於非常短的影片訓練的，只有16幀（16 frames）。它試著從部分遮蔽（partially masked）的版本，去預測完整影片的表示。這個成果讓我爸媽都很驚訝，因為它居然能判斷某個特定的影片在物理上是否可能，至少在某些受限的情況下是這樣。講者1：它會給你一個二進制輸出（binary output），告訴你這個是可行的（feasible），那個不是——嗯，不是什麼軍隊（army）的問題。講者2：不，實際上比這更簡單。你只要測量系統產生的預測誤差（prediction error）就行了。具體來說，你在影片（video）上用一個滑動窗口（sliding window），比如說取15幀（15 frames），然後看看能不能預測接下來的幾幀。你就測量這個預測誤差。當影片裡發生一些很奇怪的事情時，比如一個物體突然消失、改變形狀，或者出現什麼不合常理的情況，甚至是自發出現（spontaneity）的東西，這些都不符合物理規律（physics）的時候，預測誤差就會顯現出來。講者1：所以，單純通過觀察影片，就能判斷什麼是物理上真實的（physically realistic）？講者2：對，就是這樣。這個系統是這樣的：你在自然影片（natural videos）上訓練它，然後用合成的影片（synthetic video）來測試，裡面會有一些很奇怪的事情發生。對吧？如果你用那些本身就很怪的影片來訓練，那這些怪事對系統來說就會變成「正常」，它就不會覺得有什麼不對了。講者1：沒錯，如果訓練資料裡都是怪事，那怪事就變正常了，系統就不會覺得異常。就像一個偵測器（detector）失去了辨別怪事的能力。講者2：嗯，對，完全正確。所以我們不會這麼做。講者2（接續）：不，我的意思是，這有點像是人類的學習過程。比如說，人類需要一段時間才能理解物理規律（physics）。像是一個不受支撐的物體會掉下來，這是重力（gravity）的基本作用。這種認知大概在嬰兒9個月左右（around the age of 9 months）時開始形成。所以，如果你給5個月或6個月大的寶寶看一個場景，比如一個物體漂浮在空中（float in the air），他們不會覺得驚訝，因為他們還沒形成這種預期。但到了9個月或10個月時，他們會瞪大眼睛看著這個場景。你可以實際測量這種反應，心理學家（psychologists）有方法測量他們的注意力（attention）。這意味著什麼呢？這表示他們的內部心智模型（internal mental model），也就是對世界運作方式的理解，被違反了。寶寶看到了一些他們認為不可能發生的事情。講者1：對，所以這不符合他們的預期（expectations），對吧？講者2：是的。於是他們會盯著看，試著修正自己的內部模型（internal model）。就像是在說：「嗯，也許我得學學這是怎麼回事。」講者1：所以，你之前提到在聯合嵌入空間（joint embedding space）裡進行推理（reasoning）和規劃（planning）。我們要怎麼才能做到這一點？在模型端（model side）和硬體端（hardware side）上，都有哪些瓶頸（bottlenecks）？講者2：很多事情其實就是要讓它運作起來。我們需要一個好的方法（recipe）。就像在人們找到訓練的好方法之前，嗯，比方說，即使是簡單的卷積神經網絡（convolutional neural network），也不是那麼容易搞定。你知道的，直到2000年代後期（late 2000s），像是傑弗森（Jefferson，可能指某位研究者）這樣的人還在告訴大家，用反向傳播（backpropagation）訓練深層網絡（deep network）是非常困難的。當時有人說，像 Yann（可能是指Yann LeCun）這樣的人可以和團隊做到，但他是全世界唯一能做到的人。當然，這種說法——也就是所謂的「密室理論」（chamber）——其實並不完全正確。事實證明，這並沒有那麼難，但你得搞清楚很多技巧（tricks），像是工程上的技巧（engineering tricks）、直覺上的訣竅（intuitive tricks），還有用哪種非線性函數（non-linearity），以及殘差網絡（residual network）的概念，對吧？這篇論文在過去10年被引用了14萬5000次（cited fourteen fifty thousand times），是所有科學論文中最常被引用的。它其實是一個很簡單的想法，就是讓網絡裡的每一層都有跳躍連接（skip connection）。這樣，預設情況下，深層神經網絡（deep neural net）裡的一層基本上就像是一個恆等函數（identity function），而神經元（neuron）的作用只是對這個簡單概念的微小偏離（deviation）。講者1：對，這是為了避免你在反向傳播時失去梯度（gradient），對吧？講者2：沒錯。這個方法讓我們可以訓練帶有多層的深層神經網絡（neural nets with other layers）。現在，我們已經掌握了這些技巧。有些人很喜歡這些方法，他們會提取中間層的東西（intermediate things），然後在這些層上加上損失函數（loss functions），這樣就不會因為無法全程反向傳播（backprop all the way through）而卡住。講者1：對，不然你的網絡基本上就死掉了（dead）。講者2：沒錯。如果梯度消失，你的網絡基本上就沒用了，你得重新開始訓練。所以在那之前，人們很快就放棄了，因為他們還沒掌握所有這些技巧。在有人提出一個完整的方法（recipe），包括這些跳躍連接（residual connections）、亞當優化器（Adam optimizers）、標準化（normalization）等等之前，沒有人能成功。順便說一句，我們最近剛發表了一篇論文，證明在變換器（transformers）中進行標準化（normalization）也很重要。在你擁有這個完整的方法和所有技巧之前，什麼都行不通。自然語言處理系統（NLP, Natural Language Processing）也是如此，對吧？在2000年代中期到2010年左右（mid-2000s and tens），當時的系統基本上是用像BERT那樣的嘈雜自動編碼器（noisy auto-encoders）。你拿一段文本（text），故意破壞它（corrupt），然後訓練系統去恢復那些缺失的單詞（recover the missing words）。但後來，這種方法被像GPT這樣的架構（GPT-style architecture）取代了。你直接在整個系統上運行，不需要特意破壞輸入（corrupt the input），因為這種架構本身就很強大。這就是一個成功的方法（recipe），對吧？它必須非常成功，才能很好地擴展（scale）。所以，我們現在缺的就是為這些聯合嵌入架構（joint embedding architectures，例如JEP architectures）找到一個同樣能大規模運作的好方法。這就是目前欠缺的部分。講者1：我們面前好像有個閃爍的紅燈（flashing red light），提醒我們時間差不多了。在我們結束之前，你有沒有什麼最後的想法想留給觀眾？講者2：嗯，有的。我想再次強調我之前說過的一個觀點。我認為人工智能（AI）的進展，以及朝著像人類智能（humility of the eye，可能意指machine intelligence）或通用人工智能（AGI, Artificial General Intelligence）——不管你怎麼稱呼它——的發展，需要每個人的共同貢獻。這不是某個單一實體（single entity）躲在角落裡秘密研發（R&D in secret）就能實現的。那樣的事情不會發生。它不會是一個突然的事件（event），而是沿途一系列的連續進步（successive progress）。人類也不會因為這種事情在一個小時內就被消滅，因為這不是一個單一的事件。這種進展需要來自世界各地的貢獻（contributions from everywhere around the world）。它必須是開放的研究（open research），基於開源平台（open source platforms）。如果需要大量訓練（training），我們就得有更便宜的硬體（cheaper hardware）。你們得把價格降下來哦。講者1：抱歉，這事你得去找詹森（Jensen，可能指NVIDIA的Jensen Huang）談談。哈哈。講者2：哈哈。對，未來會是一個高度多樣化的人工智能助手（AI assistants）的世界。它們會在日常生活中幫助我們，隨時陪伴著我們，可能藏在智慧眼鏡（smart glasses）或其他智慧設備（smart devices）裡。我們會是老闆（boss），它們會為我們工作。就像我們每個人都變成了管理者（managers）。好吧，這聽起來真是個「可怕」的未來啊。哈哈。講者1：好吧，就在這個輕鬆的話題上，我想感謝你。這真是一場充滿智力啟發的對話（intellectually stimulating conversation）。希望我們未來還有機會再聊。謝謝你！講者2：謝謝！