AI at Scale: Lessons from Capital One’s Agentic AI Adoption [S72858] 大規模人工智慧:Capital One 採用 Agentic 人工智慧的經驗教訓 [S72858] ![image](https://hackmd.io/_uploads/HJ2Hpl921x.png) 講者 1: 歡迎各位,也歡迎在場的 Capital One(第一資本)團隊。Capital One 今年在 GTC(GPU 技術大會)上確實表現出色。我們做到了,你們也是如此。 我們是第一個金融服務領域的客戶,我認為甚至是第一個贊助 GTC 的企業。你們有五場演講,甚至在展覽廳(Expo Hall)中設有一個展位。我覺得這之前的準備過程也挺有趣的,因為我們並不是一開始就贊助 GTC。我們已經參加 GTC 好幾年了,但每次回來後,我們感受到的參與度都在提升——不只是因為有像我們這樣的人在解決我們感興趣的問題,更因為我們在這裡聽了各種演講,了解到其他人如何使用和開發這項技術,從硬體(Hardware)到軟體(Software),一切都讓我們受益匪淺。我們今年就是覺得,我們必須全力投入 GTC。所以我想鼓勵在場的每一位,去展覽廳的 Capital One 展位逛逛,問一些問題。如果你覺得自己夠大膽,又被這些演講啟發了靈感,不妨留下你的履歷(Resume)。昨天 Justin 的主題演講(Keynote)中還特別提到你們,天啊,那一刻感覺有多誇張啊? 這真的很棒。我非常感謝 Nvidia(英偉達)團隊讓我們的合作重新煥發活力。我想你們很多人可能也意識到了,我很喜歡 Nvidia 對真實正在發生的事情的專注。就像在金融服務領域,我們 Capital One 長期以來一直是領先的技術公司(Technology Company)。但顯然,Johnson 一直在等待我們與你們所有人合作的一些成果開花結果。我們已經建立了一個灘頭堡(Beachhead),這讓事情變得很接近目標,令人滿足又興奮。我知道在場的觀眾中有很多很酷的人也能做到這些。我知道我們今天聚在一起,是為了了解你們的議程(Agenda),以及你們基於 Nvidia 技術堆疊(Technology Stack)打造的人工智慧平台(AI Platform)。但在開始之前,請先跟我們聊聊你自己——你的背景,以及你在 Capital One 的角色。 好的,很高興簡單分享一下。我的背景是,大部分職業生涯和學術生涯都專注於 AI/ML(人工智慧與機器學習)領域。一開始,特別是在 90 年代和 2000 年代的前半段,我幾乎是在一片黑暗中摸索。那時是 AI/ML 的最大贊助時期,當時有些商業機會開始浮現,所以我們開發了一些產品,比如用於呼叫中心自動化(Call Center Automation)的技術,大約是在 2000 年左右。那是我第一次見到這些技術被大規模應用。那種感覺有種獨特的魔力,雖然回顧起來,當時的規模似乎很小,但看到這些技術逐漸成形,應用於大規模的客戶系統(Customer Systems),不僅讓客戶受益,也讓提供服務的企業員工感受到改變,這真的很特別。 從那之後,我進入了學術界幾年,這算是我在美國的第二階段吧。我曾在南加州大學(University of Southern California)任教,後來請了假,去了 Amazon(亞馬遜),在那裡我帶領 Alexa(亞歷克薩)團隊一段時間。然後,我結束了在美國資本主義中的探索旅程,來到了 Capital One。我覺得這三十年的工作經歷都在為我現在的角色做準備,而我在 Capital One 真的樂在其中。去年 GTC 的熱門話題是生成式人工智慧(Generative AI),而今年的主題則圍繞著推理模型(Reasoning Models)中的人工智慧。請帶我們了解一下 Capital One 在人工智慧領域的旅程吧。 好的,Capital One 的人工智慧之旅其實是從我們的數據之旅(Data Journey)開始的。我一直相信,對大多數組織來說,你的數據優勢(Data Advantage)就是你的競爭優勢(AI Advantage)。這並不意味著單靠數據就能帶你到達人工智慧的終點,但如果沒有獨有的數據(Proprietary Data),幾乎不可能實現你的 AI 目標。Capital One 從創立之初就依賴數據來獲得洞察(Insights)和進行分析(Analytics),以此做出決策並為廣大的美國客戶提供新產品和服務。這樣的歷史讓我們對數據有著深深的敬畏,這深深植根於 Capital One 的文化和 DNA 中。我加入 Capital One 才兩年,但沒過多久,大概六個月,我就意識到,數據作為眾多商業決策的驅動力,這種觀念在這裡根深蒂固。 所以,第一步其實是數據之旅。事實上,當我加入 Capital One 時,我想確保的一件事是,我們能讓某些東西變得鮮活,而數據在這過程中非常重要。這推動了我們首先用分析(Analytics)來驅動決策。後來,隨著統計機器學習(Statistical Machine Learning)在企業中越來越普遍,用來支持各種商業決策,Capital One 成為了這方面的先驅之一,也是應用機器學習於決策中最活躍的實踐者之一。這一切都為我們現在所謂的「人工智慧」階段做了很好的準備——雖然這個詞三十年前也用過,只是方式不同——特別是生成式人工智慧。這一波浪潮中,我認為有兩件大事很重要。第一,當前的學習技術(Learning Techniques),尤其是深度學習(Deep Learning)和變形器(Transformers),能夠以計算上可行的方式處理前所未有的大量數據,從而提升預測能力(Predictions)。先不談生成這部分,光是預測能力就因為能處理過去無法有效利用的大量數據而大幅進步。第二,在生成方面,它們開闢了人工智慧應用的一個全新領域。這就是吸引我們的地方。兩年半前,當我們所有人都在嘗試 ChatGPT 時,我們突然茅塞頓開。是不是很難相信?有時候想想真有趣,Twitter(推特)是 2008 年才出現的,我們其實並沒有深入這些革命太久,但它們卻感覺像是主宰了我們的生活。 從去年到現在的轉變很有意思。我們一開始專注於生成式人工智慧,已經部署並打造了一些東西。我看到我們最親密的合作夥伴之一就在現場的觀眾中——明天我們的核心運營團隊(Hardcore Operations)——我們與這個團隊建立了非常重要的合作關係,推出了基於生成式人工智慧的代理輔助技術(Agent Assistance Technologies)。今天,Capital One 的所有客服代理(Agents)都在使用由生成式人工智慧驅動的電話解決方案(AI-Powered Solution),為客戶提供服務。但這只是第一步。因為當你開始轉型時,一切都圍繞著互動(Interactions):我如何與客戶互動?我如何在當下為他們提供更好的服務? 但當我們開始看到機會從單純的互動擴展到實際為客戶採取行動(Taking Actions)時,真正的轉變才開始。我們稱之為「生成式人工智慧代理」(Generative AI Agent),這在很大程度上是一種軟體結構(Software Construct)。它結合了兩件事:第一,是在特定工作領域的专业化(Specialization)。比如在某些場景中,你可能有一個通用型代理,但也可能有一個專注於體育(Sports)的代理,或是專注於美國政治(U.S. Politics)的代理。如果你要建立這樣的互動模式,你還是得打造一個框架(Framework)。但在企業場景中,如果你想服務客戶,就需要建立使用專門模型(Specialized Models)的代理,針對每個領域進行優化。今天,我們稱之為「身份 A」(Identity A),這是一個計算實體(Computational Embodiment),讓我們能夠輕鬆實現以行動為導向的人工智慧系統(Action-Oriented AI Systems),這些系統能代表用戶完成任務(Complete Tasks),提升服務品質並延長其價值。 我覺得這樣的背景說明很有幫助。你提到「身份 A」和你的生成式人工智慧框架(AI Framework)。那麼 Capital One 如何看待外面的開源工具(Open Source Tools)?軟體堆疊(Software Stack)、函式庫(Libraries)這些東西,你們如何決定要使用哪些工具並融入你們的平台? 是的,我們做了一個決定——我不覺得這是獨一無二的,但我們非常清楚且堅定地下了這個賭注:我們要押注於開源(Open Source)。我們說開源,但其實真正指的是開放權重(Open Weights),因為大家不會公開訓練模型的原始碼(Source Code)或所有訓練數據(Training Data)。我們談的是開放權重模型(Open Weights Models)。我們決定採用開放權重模型,這其實跟剛才提到的「你的數據優勢就是你的 AI 優勢」有關。如果你無法利用數據提升人工智慧的性能——而如果你用的是專有閉源(Proprietary Closed Source)的 AI,就很難做到這一點——那麼你就放棄了很大的潛力。所以我們有個很清晰的策略:我們要基於開放權重模型來打造我們的系統。接下來的問題是,這些開放權重模型能保持最先進(State-of-the-Art)的地位嗎? 可能會落後於最先進的技術(State-of-the-Art)。所以在第一年,也就是 2023 年的大部分時間裡,我們一直在密切追蹤這些開源模型(Open Source Models)的表現。你們應該都很熟悉這些模型,比如 LLaMA 家族(LLaMA Family)就相當有名。我們持續觀察後發現,每當有新版本發布時,與最先進技術之間的差距就會大幅縮減(Cut Dramatically)。另外,我們還注意到,這些開源模型的計算性能(Computational Performance)其實更優秀。考慮到我們的大部分成本是在運行時(Run Time)產生的,當談到成本問題時,Jennifer,這很大程度上促成了我們與 Nvidia(英偉達)的合作。 我們當時在想,誰最懂得如何在 GPU 上優化推理(Inference)呢?我們猜想,應該是設計和製造 GPU 的人吧。這就促成了我們在優化(Optimization)方面與 Nvidia 建立了相當深入的合作關係。還有我們使用的其他函式庫(Libraries),我們又回到了開源選擇(Open Source Selection)這個話題。到目前為止,我們的觀察是——我也不知道該怎麼說,我有個問題想問大家。 有人想猜猜看嗎?在性能相等的基礎上,改進了多少?我指的是 MMLU 基準(MMLU Benchmark),你們這些熟悉它的人應該知道。你們覺得在過去 22 個月或 20 個月裡,自從我們開始關注這個以來,計算效率(Computational Efficiency)和計算成本(Cost of Computation)提升了多少?我不知道,我給你們兩秒鐘在心裡想一想。當然,你們可能會覺得是一倍或兩倍的提升。但實際上,如果你看早期的數據,比如超過 42 個月前的,增長其實達到了 1000 倍(1000×),這可是個大原因。這就是過去 20 個月發生的事。我們的注意力有時會被最近成本降低兩倍或三倍的事件分散,但我們看到的是成本降低的長期趨勢(Secular Trend)。如果再看看 83%左右的數據,那就是 100 倍(100×)的降低。這些都是大幅度的削減(Massive Reductions),它們開啟了很多可能性。 這些全都是開源的(Open Source)。我們採用這些開放權重模型(Open Weights Models),然後發現,要達到生產級的性能(Production Performance),我們的內部夥伴,比如 Tomorrow 這樣的朋友,對我們設下了很高的標準,告訴我們什麼樣的表現才算合格。要達到這樣的水平,你得把自己的數據(Data)帶進模型,以各種方式對這些模型進行深度客製化(Deep Customization)。這些模型的客製化需要大量計算資源(Computationally Expensive),但這樣的努力提升了它們的性能。這就是我們的開源策略(Open Source Strategy)。但當我們談到更廣泛的應用時,另一部分是這樣的:我們是一家金融服務公司(Financial Services Company),我們做的每件事都從思考風險(Risk)開始,到推出市場前進行風險測試(Testing for Risk)結束。因此,我們也需要使用各種護欄(Guardrails)。有些護欄是我們內部建立的,但其他護欄則是關於這些元素的性能,比如常見的毒性(Toxicity)問題,或其他大家喜歡衡量的指標。這些護欄也有開源的版本,比如我們使用的 Nvidia NeMo 護欄(Nvidia NeMo Guardrail)以及 LLaMA 電池(LLaMA Batteries)等。我們也可以用我們的數據來配置和客製化這些護欄。所以,開源不僅僅是大家常想的模型本身,而是有一個完整的開源生態系統(Open Source Ecosystem)可以利用。但要充分利用這個生態系統,你得成為生成式人工智慧(Generative AI)藝術與科學的高級實踐者(Advanced Practitioners)。這就是內部投資(Internal Investments)重要性的所在。 你提到了開源模型、開源工具和函式庫,甚至還有與 Nvidia 的合作。我得說,你們這些年來與 Nvidia 的直接合作,特別是與我們的產品工程團隊(Product Engineering Team),確實讓 Capital One 脫穎而出。談談你與 Nvidia 的關係,以及在打造這個人工智慧平台(AI Platform)時的合作吧。對,我應該先說,我們雇用的第一批人才中就有一位來自 Nvidia。這位可是相當資深的人物,他在我的團隊中有場演講,我想。如果你對技術細節感興趣,比如我們如何打造這個身份框架(Identity Framework),它是完全由內部與合作夥伴共同建立的。但第一個重大貢獻其實是——也許該說謝謝你。但為什麼你們在這裡設展位呢?對吧?這顯示了你們多麼致力於吸引優秀人才(Good Talent)。我們與 Nvidia 的關係在雇這位人才之前就已經很好,這只是進一步強化了我們的合作關係。但我們的合作已經深入,至少有三個面向。 第一個面向是關於如何以最佳方式利用 GPU 進行推理(Inference),比如如何進行優化。我們與 Nvidia 針對 Triton 函式庫(Triton Libraries)進行了相當深入的合作開發。你得明白一件事,當你在打造面向用戶的應用程式(User-Facing Application)時——即使在生成式人工智慧之前也是如此——延遲(Latency)是用戶參與度(User Engagement)的數量、品質和滿意度的關鍵驅動因素。不管是你用你最喜歡的搜尋系統(Search System)還是其他東西,如果反應速度感覺不到即時(Real-Time),而我們人類對即時的感知已經隨著時間大幅進化,想想那些試著線上看直播的人? 想想你看體育直播(Live Sports)時的情況。哪怕一秒的緩衝(Buffering)都會讓你抓狂吧。我們就是期待極度即時的體驗(Real-Time Experience)。延遲是個大驅動因素。你可以測量出延遲每增加 5000 毫秒(Milliseconds),用戶參與度就會下降的相關性。所以對我們來說,推理不僅僅是個過程,當然效率(Efficiency)很重要,但延遲本身就是推理的一部分。提升效率能改善客戶體驗(Customer Experience)。最終,我們可以透過降低成本做得更好,但如果沒有滿意的客戶,我們的生意就沒了。因此,確保我們能為客戶提供最滿意的體驗是關鍵。這是我們合作的一個面向。第二個面向是建立在所有函式庫上,比如 Megatron、NeMo 或其他電池(Batteries)等,這部分也很棒。第三個面向,或許是展望未來最令人興奮的部分——你們有這樣的合作關係,Jennifer。我們經常在生成式人工智慧、變形器(Transformers)和深度學習(Deep Learning)的背景下思考 GPU,但其實還有許多其他應用場景,比如分散式運算(Distributed Computing)或並行運算(Parallel Computing),也就是 Jensen 喜歡講的加速運算(Accelerated Computing)。所以,當我們越來越熟悉如何使用 GPU 時,我們也開始熟悉其他領域——不是人工智慧的地方——在這些地方,基於 GPU 的加速運算也能給我們帶來提升。這是另一個值得我們投入的領域。 你花了不少時間談你的推理策略(Influencing Strategy)。這可能是我們目前與客戶討論最具挑戰性的話題之一:你如何為推理和規模(Scale)進行容量規劃(Capacity Plan)?你用哪些工具來規劃容量,以滿足 GPU 橫向擴展(Scaling Out)的需求?能不能聊聊這個?因為當你提到與代理(Agents)互動時,那種性能和客戶體驗真的非常重要。沒錯。我想我們大多數人都很清楚我們服務的客戶量(Volume of Customers)、流量(Traffic)是多少。在某個層面上,有一些相當合理且成熟的工具可以用來預測流量和語音量(Speak Volumes)。對於那些熟悉統計學的人來說,你們知道,去看看紅綠燈的情況。車流像是公車一樣移動,你不會在紅燈前只看到一輛車,它們總是一起來。這裡有個叫做伽瑪分佈(Gamma Distribution)的分佈模型,可以讓你預測這種情況。結果發現,呼叫中心(Call Center)的流量與修正後的伽瑪分佈有些關聯。你可以用這個來預測高峰負載(Peak Load),然後據此配置 GPU。但真正有趣且難以預測的是,生成式人工智慧會如何發展? 改變這些互動(Engagements)的持續時間。因為當互動變得更令人滿意時,人們會希望透過它完成更多事情,這就成了預測中最困難的部分。所以在某種程度上,我覺得我們目前正處於這部分的學習曲線(Learning Curve)上。你必須稍微過度配置(Over Provision),因為你絕不希望客戶的體驗因為計算節點(Compute Nodes)不足而變得不夠好,導致你得讓人們等待。當然,如果體驗本身就很好,這是自然的事。但我認為這其中有一部分挑戰是,當你經營一家成熟的企業(Well-Established Business)時,對初創公司(Startups)或正在擴大規模的公司來說,預測流量(Volumes)會困難得多。這就是原因所在。目前並沒有真正彈性的 GPU 可用性(Elastic GPU Availability)。這不像 CPU 那樣,你可以簡單說一句「給我自動擴展(Auto Scaling)」就搞定。所以我們會提前配置(Provision in Advance),但這正是計算效率(Computational Efficiency)發揮作用的地方。 我們會把這些因素考慮進去。你看,過去 20 個月裡,我們看到了 1000 倍(1000×)的增長。也許未來 20 個月不會再有 1000 倍,但我們會運行基準測試(Benchmarks),看看未來 10 到 12 個月會是什麼情況。這也能告訴我們 GPU 的吞吐量(Throughput)會增加多少。所以這有點像藝術(Art)、科學(Science)和工程(Engineering)的結合。讓我們來談談訓練(Training)。你提到過 NeMo 框架(NeMo Framework),我們來具體聊聊為代理(Agents)訓練大型語言模型(Large Language Models)。有沒有什麼特別的——我會說是數據飛輪(Data Flywheel)或技術(Technique)——是你們在 Capital One 內部使用,來獲得最高準確性(Accuracy)的? 是的,我覺得你們談到飛輪(Flywheel),我也來聊聊我自己的「飛輪」,這是我很喜歡的一個概念。我認為大多數公司存在的目的是為了服務客戶(Serve Customers),對吧?有些公司可能在短時間內不需要這種思維也能存在,但它們無法長久(Enduring)。所以,大多數公司的核心是服務客戶。你與客戶的互動(Interactions)自然會產生數據(Data),這是互動的自然結果。如果你把這想成一個飛輪,從客戶參與(Customer Engagement)開始,產生數據,聰明的公司會利用這些數據來理解:我的服務有哪些限制(Limited)?我有哪些地方沒能以最好的方式服務客戶? 我的體驗中有什麼缺陷(Defects)?有哪些改進的機會(Opportunities for Improvement)?於是你引入分析(Analytics),這會為你指明如何改進你的產品(Offerings)。這些分析結果再被輸入到機器學習模型(ML Models)或其他改進措施中,提升客戶的互動體驗。這會帶來更多的參與(Engagement),更好的體驗又帶來更多參與和更多數據。這就是核心的飛輪(Core Flywheel)。而人工智慧(AI)的加入帶來了什麼呢?當你做這些分析時,你能覆蓋的互動表面區域(Surface Area of Interactions)是有限的,因為任何手動(Manual)或預設(Preformed)的操作都只能觸及一部分。但有了人工智慧,你就能完全覆蓋客戶互動的整個表面區域(Full Surface Area)。你可以從中提取所有分析數據,但更有趣的事情也發生了,因為人工智慧不只是分析客戶互動的工具,它還能把這些互動中的改進帶入現實,進一步提升客戶體驗。 最終,這些模型會從互動中學習(Learn from Interactions),並不斷自我改進(Keep Improving Themselves)。我們已經在一些地方看到了這樣的證據。當這發生時,這個飛輪的改進會開始自動運轉(Turn by Itself),你不需要一直手動推動它。當然,總得有外部能源(External Source),這不是永動機(Perpetual Motion Machine)。我認為這種優質的能源來源就是所有的客戶參與(Customer Engagements)、計算資源(Compute Resources),以及實際投入其中的能量。但還有第三點,當你觀察與客戶互動的整個表面時,你還能發現目前尚未提供給客戶的新產品和新服務的機會(Opportunities for New Products and Services)。 不只是「我現有的服務有哪些不足?」——我經常想改進這些——而是「有哪些新的機會被解鎖?」這影響非常巨大。因為現在你談的不僅僅是一個飛輪,而是一個更大、更重的飛輪,但它依然能隨著時間越轉越快。這開啟了新的商業機會(Business Opportunities),推動了更高的客戶滿意度(Customer Satisfaction),超越了單純的「解析度(Resolution)變得更好」。比如,從串流視訊服務(Streaming Video Service)的角度來看,不只是解析度和渲染(Rendering)的影像更好,現在連故事(Stories)都更好了。我能找到更多適合我的內容(Content)。這一切都是飛輪的一部分。對大多數企業來說也是如此,比如你們的聊天禮賓代理(Chat Concierge Agents),也就是你的生成式人工智慧平台(Generative AI Platform)。能不能聊聊你們訓練它們的具體技能(Skills)和任務(Tasks),以及它們如何理解這些複雜任務並制定執行計畫(Plan to Execute)? 好的,很感謝這個問題。我們打造了一個內部的生成式人工智慧框架(Generative AI Framework),我們稱之為 Macaw。這在後續的演講中你們會看到,比如與 Tomorrow 共同主持的演講中。你們會看到我們如何用這個代理框架(Agent Framework)實現許多不同的工作流程(Workflows)。但具體來說,聊天禮賓(Chat Concierge)是我們為金融服務(Financial Services)或汽車業務(Auto Business)推出的一個例子。很多汽車經銷商(Auto Dealers)現在都用聊天禮賓作為客戶與他們互動的機制。就像所有的代理一樣,如果你打造一個充滿活力的工作流程,最基本的要求是:你得理解客戶問的是什麼問題(What Question the Customer is Asking)。你需要針對這個查詢(Query)或需求(Request)規劃一個回應(Plan a Response),並滿足客戶的需求。然後,你得確保你制定的計畫是好的,所以需要代理之間有一些對抗性互動(Adversarial Interaction)來測試這一點。接著,你需要有東西代表客戶採取行動(Take Action),最後閉環(Close the Loop),透過提供結果(Rendering)回饋給用戶。 對於每一個環節,我們再次使用開放權重模型(Open Weights Models),並用客戶數據(Customer Data)進行客製化。但目前我們還有「人在迴路」(Human in the Loop)。在金融服務領域,我覺得每個人都應該這麼做,我們也想這麼做,但我們也必須這麼做。我們有個人參與其中,確保每個提供給客戶的回應都符合我們的價值觀(Values)。這個「人在迴路」其實也是飛輪的重要部分,因為他們做的每件事都能幫助我們改進模型(Improve Our Models)。這加速了服務和客戶體驗的提升。對於我們擁有的每個特定代理,你可以微調模型(Fine-Tune the Models),或者用比微調更深入的方式客製化模型,讓它們更適合你的應用(Applications)。我們就是這麼做的。我們也為每個代理做了不少微調(Fine Tuning)。有時候,你可以用同一個底層模型(Underlying Model),但透過不同的背景(Contexts)和方式調用它來服務不同的需求。我們在這方面做了很多努力。 另外,延遲(Latency)還是超級重要,因為現在最終用戶(End User)是直接與系統互動的。我只能說,我們與合作夥伴——真的,我不想說具體數字,但我們已經實現了超過 10 倍(10×)的延遲改善。目前大概是 8 到 10 倍的提升,但我們的旅程還沒結束。我相信未來會有更多進展。你有這些基準測試(Benchmarks)真是太好了。那麼,你們有沒有找到其他能幫助你量化代理有效性(Effectiveness of Your Agents)的基準? 你怎麼看待 AI 的投資報酬率(AI ROI)?我對這個「AI ROI」有不一樣的看法。我們剛剛談到這些技術的成本結構(Cost Profile)有著驚人的動態性。在這樣一個環境下,當你的推理成本(Inference Costs)在不到兩年的時間裡下降了 4000 倍,而且還會繼續下降,你要怎麼做出深思熟慮的理性決策(Rational Decisions)呢?在推理(Inference)的術語中,「I」(投資)的成本變化太過劇烈,而「R」(報酬)還是企業正在摸索和制定的東西。所以我覺得你得問自己:我這裡的策略承諾(Strategic Commitment)是什麼?我認為這些是長期且持久的轉型(Long-Term Transformations)嗎?任何想要在自己行業中領先,或以特定方式服務客戶的公司,都得投資(Invest)並用心參與其中,用深思熟慮的方式去做,既不在短期內過度投資(Over Investing),又要朝著目標前進?還是說,你會採用逐個用例(Use Case by Use Case)的方式,一步步推進? 我個人的看法是,AI 的很多價值來自於能把所有互動(Interactions)整合到單一模型(Single Model)中。從某種意義上說,這有點像是智慧的集中化(Centralization of Intelligence)。當這種情況發生時,我認為短期內的投資報酬率(Near-Term ROI)並不是我們關注的重點。我們在短期內尋找的是:我們能不能驗證這東西真的能提升性能(Lift Performance)?在這方面,你有相當大的自由度。如果你在運營呼叫中心(Call Centers),你會同時關注兩件事:它有沒有提升我的代理滿意度(Agent Satisfaction)?我的員工(Employee)有沒有因為工作方式的改善而感覺更好?這有沒有提升員工留任率(Retention)? 這會讓他們的生活更輕鬆。因為如果你把重點放在「I」(投資)上,尤其在這段旅程的早期,你會過分關注成本(Cost),可能會做出對長期來說不是最佳的決策(Long-Term Decisions)。但如果你專注於「R」(報酬),那麼你會問:我有沒有提升我的代理(Agent)、我的同事(Associates)、我的員工的表現和體驗?我有沒有改善客戶的體驗(Customer Experiences)?這些我能不能量測(Measure)? 你確實可以量測。有像淨推薦值(NPS, Net Promoter Score)這樣的工具,所有公司都用來評估體驗(Experience),從外部完全改進等等。然後在我們的商業模式(Business Model)範圍內,這大致上是否有意義?感覺上這能不能走到一個合理的地方?我們能不能找到一個方法,讓這一切變得有意義? 這是我的觀點。從長遠來看,這是有益的(Beneficial in the Long Run)。除了你在 Capital One 打造的聊天禮賓(Chat Concierge),你怎麼看代理(Agents)在金融服務業(Financial Services Industry)的革命性影響?我覺得這是個很有趣的問題:代理會如何徹底改變一切?我不知道你們有多少人看過那些新機器人(Robots)的影片,裡面機器人互相合作完成任務。從某種意義上說,這也算是一種生成式代理(Generative Agents),因為它們與環境互動(Interact with the Environment),理解環境。但回到核心,什麼是生成式代理(Agentic)的意義?如果你只是處於純粹的互動模式(Interaction Mode),客戶來問問題,你提供知識收集(Knowledge Gathering)和資訊供應(Information Provisioning)的服務,這是一個完全不同的世界。你有很大的控制權,因為這些資訊是靜態的(Static),經過整理(Curated),存在你的資料庫(Databases)中,因為你只想提供經過驗證的可靠資訊(Validated Information),特別是對像我們這樣的公司來說。 但當你想到生成式世界(Agentic World),代理不只是懂得某個任務(Task)。它還得對自己所處的環境有即時的感知(Real-Time Awareness),這樣才能採取行動(Take Actions)。我正在處理的系統架構(System Architecture)是什麼?我目前的工作流程(Workflow)狀態如何?有哪些應用程式介面(APIs)可以調用來執行特定行動?這些對代理工作流程(Agentic Workflow)來說都變得超級重要。所以當我們思考這一點時,我們會考慮如何與我們的生態系統(Ecosystem)建立連結。當你把這一切整合起來,代理基本上可以成為你的任務執行者(Task Performers),或者成為你的合作夥伴(Collaborators),與你分擔一些負擔。但在企業環境(Enterprise Context)中想想,所有不同的工作流程都是人們完成的任務,你就可以思考:我如何讓這些代理具備環境背景(Context)的知識?它們如何幫助你? 所以我覺得,真的,我們所有人或多或少都已經在與生成式代理能力(Agentic Capability)互動,只是我們沒有立刻認出它的形式。但我認為在職場中,這會越來越關乎在人們認知負擔(Cognitive Burden)最大的時刻提供幫助。我對 AI 的看法是,AI 的崇高目標(Noble Aim)是把認知負擔從用戶(User)或人類轉移到系統(System)。當你能在認知負擔達到高峰(Peak)時完成這種轉移,你就真正為與 AI 合作的那些人解鎖了價值(Unlocked Value)。以呼叫中心為例,認知負擔最大的時刻是代理接起電話時,打電話的人已經等了幾分鐘,他們已經很焦躁(Worked Up),現在就想要答案。呼叫中心代理(Call Center Agents)對這種情況非常敏感,真的很清楚那是客戶最不耐煩(Maximum Impatience)的時候。這時他們需要幫助,能更快、更準確地回答問題,提供資訊。如果我能在這時幫上忙,減少他們所需的時間,減少他們驗證資訊(Validate Information)所需的審查量,就能更及時地提供更準確的資訊。這樣,你就突然減輕了用戶的認知負擔。這種情況會在各處發生。我們在軟體(Software)中已經看到這種情況的早期階段,但任何工作都適用。只要你有認知負擔轉移的世界模型(Cognitive Burden Transfer Model),加上一個理解自己運作環境的代理,以及代理如何最高效運作的心智模型(Mental Model),你就能找到所有你想要的用例(Use Cases)。你分享了很多關於生成式人工智慧(Agentic AI)和代理如何影響 Capital One 的內容。 Capital One 在人工智慧方面的下一步是什麼?我覺得我們現在談的是生成式人工智慧(Agentic AI),但代理只是當前的計算形式(Computational Embodiment)。就像我們大多數人一樣,有時在操作洗碗機(Dishwasher),有時在操作洗衣機(Washing Machine),有時在操作開關(Switches),銀行也在做其他事情。我們能勝任許多不同的任務(Tasks),但我們不會在腦子裡想著「我有 100 個代理在我腦中」。 沒錯,這真的是同一個大腦在不同情境下轉換到不同的代理(Agents)。所以我認為未來 3 到 5 年將圍繞專業模型(Specialist Models),也就是客製化的專業模型(Customized Specialist Models)。但我很好奇,真正的長期軌跡(Longer-Term Trajectory)是否會走向一個單一模型(Single Model),這個模型能在需要的時刻即時展現所需的專業化(Instantiate Specialization)。這就是為什麼我把代理視為當今實現某些自動化(Automation)的計算形式(Computational Embodiment)。所以展望未來,我們希望打造所有這些客製化的專業模型,讓它們能承擔這些任務(Tasks)。我們確信未來 3 到 5 年,會有很多生成式代理(Agentic)的轉型(Transformation)發生。但我同時也認為,我們會看到一些代理不僅是執行任務,還會作為護欄(Guardrails),檢查事情是否進展順利。特別是對於我們所在的金融服務業(Financial Services Industry),這絕對是一個超級重要的領域(Area of Work)。好吧,就先講到這裡。 昨天我們在 Jensen 的主題演講(Keynote)中聽到,下一階段是物理人工智慧(Physical AI),我們會把它與機器人(Robotics)或自動駕駛汽車(Autonomous Vehicles)聯繫起來。你認為物理人工智慧會影響 Capital One 和金融服務業嗎?有哪些例子?我不知道,這有點牽強(Stretch)。很難在金融服務業中具體想像物理人工智慧的應用。雖然我得說,就目前大家在做的事情來看,比如寫軟體(Writing Software),我們看到的示範(Demos)中,物理層面通常偏向製造導向(Manufacturing Oriented)。但說真的,我們都生活在一個真實的物理世界(Physical World)中,我們都在這個世界裡做事。我們實現這些的方式之一就是軟體(Software)。所以我確信,我們會看到軟體撰寫方式(How Software is Written)、軟體品質(Quality of Software)和開發速度(Speed)的轉變。我認為第一個好處會體現在新功能(New Features)推向最終用戶(End Users)的速度上,以及當人們發現新漏洞(Vulnerabilities)時,修復軟體漏洞的速度(Speed of Fixing Software Vulnerabilities)。這些都與物理人工智慧(Physical AI)有關。 不過就我個人來說,每次我在舊金山(San Francisco)或聖荷西(San Jose),我最常接觸的就是自動駕駛汽車(Self-Driving Cars)。我很喜歡叫一輛車,然後坐進去,不用戴口罩,感覺很安全。在展覽廳(Expo Hall)裡,還有一個機器人在製作濃縮咖啡(Espressos)和卡布奇諾(Cappuccinos)。所以說不定未來在 Capital One 咖啡館(Capital One Cafes)裡,會有一個物理人工智慧機器人(Physical AI Robot)為客戶煮咖啡。為什麼不呢?我的夢想之一是這樣的:酒店裡會有這種機器人,你早上醒來時告訴它們「我要咖啡和糕點,25 分鐘後送來」,你準備好後,它們就送到你門口。如果一個機器人在你門口多等了一會兒,你不會像讓一個人等時那樣感到內疚。所以這些東西都跟轉移認知負擔(Transferring Cognitive Burden)有關。Jennifer,如果能在那一刻轉移我的內疚感(Guilt),說「沒關係,它可以等」,那就更好了。 更棒的是,它還有保溫功能(Self-Warmer),咖啡能保持溫暖。天啊,這真是太不可思議了,太完美了(Prime)。非常感謝你今天抽空跟我們分享。還有什麼最後的想法想留給大家嗎? 是的,我想說,作為來自金融服務業(Financial Services)的人,我們傾向於從風險(Risk)出發。我們會先思考事情可能出錯的方式(Ways Things Could Go Wrong),然後確保我們能把這些考慮融入其中(Baking In)。很多這種思考就像是圍繞著護欄(Guardrails)。我認為,隨著這些技術擴展到全世界,幾乎每個人都會採取這種深思熟慮(Thoughtful)、有計畫的方式(Planned Way)。責任(Responsibility)其實就是對你所做之事的影響保持深思熟慮。所以我認為,跨越各企業部門(Enterprise Sectors),那些早一步投入(Lean In)並踏上這段旅程(Go on the Journey)的企業,將會獲得巨大的學習(Huge Learning),而這種學習本身將成為它們實踐業務(Practice Their Businesses)的差異化因素(Differentiator)。 所以我想留給你們兩三件事。第一是你的數據(Data)。你的數據準備好了嗎(How Ready is Your Data)?如果你的數據沒準備好,你就還沒到人工智慧之旅(AI Journey)的起點。你只能使用現成的工具(Off-the-Shelf Tools),但單靠整合這些現成工具很難建立持久的差異化(Enduring Differentiation)。第二,我想說的是,對客戶體驗(Customer Experience)的持續關注(Relentless Focus)。很容易只從成本角度(Cost Perspective)思考,但我們不會只這樣想。我們會考慮這如何改善員工體驗(Employee Experience),如何改善客戶體驗(Customer Experience),其他好處自然會隨之而來。 第三是你的策略(Strategy)是什麼?你會全部自己打造嗎?採用開源(Open Source)和開放權重(Open Weights)的方式,這意味著需要相當大的自有投資(Investment of Your Own)。我們傾向於成為一家以平台為中心的公司(Platform-Centric Company),用特定的方式處理事情。那你的方法是什麼?我認為這三個考量將決定你能將企業人工智慧(Enterprise AI)帶入公司的廣度(Breadth)和深度(Depth)。謝謝你,這真是我的榮幸(Pleasure)。謝謝大家。