How AI is Transforming the Way We Create, Personalize, and Share Content [S73742] 人工智慧如何改變我們創建、個人化和分享內容的方式 [S73742] ![image](https://hackmd.io/_uploads/Skik9bc2Jx.png) 講者1: 確實,我們也有一個訴訟請求,是針對其他人的。我很害怕站在這裡,但感覺好像沒過多久,我還在參加第一屆GTC(全球技術大會),那時我談論的是電腦如何改變電影製作中模擬(simulation)的方法。我當時和克里斯·霍洛維茨(Chris Horowitz)一起,我們展示了许多功能,比如利用電腦生成煙霧、火焰等效果。那時的展示顯示,這些技術比傳統CPU的應用效率提高了200%。幾年後的今天,我和克里斯都在北京工作。今天我想談談AI(人工智慧)在動畫領域(enemy space)的應用,我知道這個話題在過去一年半左右時間裡,對一些人來說有點敏感。許多工作室對AI這個詞的使用變得低調,有些工作室甚至不允許員工公開談論它。這種情況帶來了恐懼和不確定性。所以,我希望今天能帶大家了解這種情況背後的原因,並讓業界更清楚地認識到AI在動畫領域的能力——其實這些技術已經在這個領域使用了十多年。當我們談到生成式AI(generative AI)時,會展示一些非常有趣的東西,那就讓我們開始吧。 昨天的主題演講中,大家已經看到,我們談到了即時加速運算(accelerated computing for real-time),特別是AI的應用。我想先簡單談談AI的快速演進。我們習慣看到AI能回答問題,比如時間或溫度之類的簡單查詢。但現在,我們正進入AI推理(AI reasoning)崛起的階段。這意味著你可以與AI代理(AI agent)互動,不僅能得到資訊,還能了解它得出這些資訊的推理過程。這種更深入的對話能力為我們帶來了全新的可能性,並貫穿我們的工作。開發者正在利用這些技術,他們的角色也在擴展。我們都聽過這樣的說法:你可以提示AI幫你開發一個應用程式,或者生成一張圖片。但事實上,如果你不清楚最終想要的結果是什麼,就很難得到滿意的東西。開發者明白應用程式是如何構建的,他們知道如何利用、整合和部署這些技術。因此,在這個新世界中,開發者的角色比以往任何時候都重要,因為他們正在幫助打造這些新能力,轉化為真正可用的成果。 昨天我們宣布了幾款對市場非常重要的新硬體。特別是DGX Spark,這是一款絕對的AI強者,可以放在你的桌上,連接到你正在使用的任何電腦。它運行我們完整的NVIDIA堆疊(NVIDIA stack)。這意味著你可以在桌面上擁有DGX電腦的強大性能,它的大小就像一本平裝書,擁有超過1000 TOPS(兆次運算每秒)和128GB的記憶體。如果你需要在本地進行AI推理(AI influencing),它提供了充足的空間。但如果你想要更強大的設備,我們還有DGX Station,它使用了我們的Grace Blackwell Ultra晶片。這款設備真正將伺服器的強大性能帶到了你的桌面,配備700至780GB的RAM和最高20,000 teraflops(萬億次浮點運算)的運算能力,讓你桌上擁有業界前所未有的設備。將這些設備結合起來,你真的可以看到桌上擁有伺服器性能的可能性。 除此之外,我們還宣布了一些其他內容,你們會在這段影片中看到。讓我們來看看RTX Pro如何為媒體環境帶來改變。我們推出了新一代RTX Pro全系列產品,從筆記型電腦到桌上型電腦,提供一系列產品,幫助你在桌上型電腦上進行推理(inference)。與上一代相比,性能提升驚人,從幻燈片中可以看到,推理場景的性能提高了3.5倍以上,渲染(rendering)和文字轉圖像(text-to-image)的性能提高了2.5倍,影片編輯性能更是提高了15倍。這是一個能融入你工作站的真正強者。從基準測試中可以看到,與上一代相比的顯著改進,讓你在桌上型電腦上能用AI做更多事情。 我們已經與長期合作夥伴預覽了這些產品,比如First I Picks,他們從NVIDIA創立之初就是我們的合作夥伴。關鍵之一是他們能夠將97%的環境直接載入這款96GB的顯示卡中。這對像Picks這樣的團隊來說是一個驚人的成就,我們知道這對他們意味著什麼。這表示他們將在下一代場景中做得更大、更出色。他們的進步真的很驚人,我們與他們合作,確保他們擁有最適合工作需求的平台。同樣的,還有Industrial Light and Magic,如果你熟悉Stagecraft(舞台工藝),你就知道這是一個用於即時製作的完整虛擬環境,能將特效直接帶入攝影機。我們稱之為即時技術。這一代顯示卡的性能比上一代更好,讓他們能在即時環境中完成更多工作。目前業界預測,約20%使用特效的電影是即時製作的,而未來兩年內,這比例預計將翻轉,超過70%的電影將採用即時製作。這是非常驚人的進展,而我們的硬體平台正是推動這一切的關鍵。我們提供從筆記型電腦到伺服器的全系列產品,這些功能的可能性令人驚嘆。我想給大家看一段影片,讓你們了解這些即時技術的重要性。 講者2: 透過NVIDIA RTX套件(RTX Kit),我們向開發者提供了神經渲染(neural rendering)技術。這套件中的第一個新創新是RTX Neural Shaders,這是一個新的程式設計模型,讓開發者能在著色器(shaders)中訓練和使用小型AI網路。這使得超複雜的資產(assets)能即時渲染,讓遊戲更接近重金打造的CGI電影中高品質材質的水準。神經著色器的應用無窮無盡,從材質(materials)、光影(lighting)到幾何結構(geometry)等等。其中一個應用是神經紋理壓縮(neural texture compression)。RTX神經紋理壓縮利用AI更有效地壓縮紋理,將紋理記憶體消耗減少高達7倍,同時保持高視覺品質。同樣的,RTX神經材質(neural materials)壓縮著色器程式碼並加速材質處理,讓你能在遊戲中以電影品質填滿整個場景,並保持遊戲所需的性能。 此外,RTX全局照明(RTX Global Illumination)的神經輻射緩存(neural radiance cache)利用AI模擬多次光線反射,提升照明品質和性能。在路徑追蹤(path tracing)遊戲中,隨著對視覺保真度的期望提升,以及像虛幻引擎(Unreal Engine)的Nanite這樣的高級幾何系統的發展,過去30年來幾何複雜度呈指數增長。為了解決這種複雜性,RTX Mega Geometry重建幾何資料結構,用於即時路徑追蹤,每幀可處理的追蹤三角形數量提升100倍。這項突破為巨大的、細節豐富的世界和無限複雜的角色提供了動力。 講者1: 是的,太驚人了。這些AI能力令人驚嘆的地方在於,它們將即時功能帶入工作流程,涵蓋渲染(rendering)的各個部分,全程即時進行。我們還沒真正觸及那些讓人擔憂的話題。這些能力促成了我們所謂的「媒體2.0」(Media 2.0)計劃。當我們審視業界的發展時,我們從內容創作開始,一直到分發以及之間的所有環節,與過去的媒體娛樂世界相比,現在的情況完全不同。過去的重點是將內容呈現到螢幕上,而「媒體2.0」計劃則是關注生成式AI(generative AI)、數據分析(data analytics)、推薦引擎(recommendation engines)、語音(speech)和視覺(vision)等各種應用場景。這些技術結合在一起,將我們帶入一個更加個人化的體驗時代。 例如個人化搜尋和助理能幫助你完成工作,內容描述、規劃和支出分析等功能都因AI而增強。還有動態內容傳遞(dynamic content delivery),我們知道影片消費量比以往任何時候都多,且增長速度前所未有。人們在不同設備上觀看內容——家裡的螢幕、電影院、手機等等。AI能即時轉換分發方式,適應你觀看內容的設備,不僅僅是剪掉場景,而是聚焦於你正在觀看的場景內容,甚至提供動態資訊。比如看體育比賽時,現在的觀看體驗不僅限於比賽本身,還包括周邊的數據分析,例如某個球員上一次進球是什麼時候,讓你更深入、更個人化地沉浸在比賽中。當然,在廣告技術(AD tech)領域,我們也看到驚人的成長,特別是在超本地化(hyper-localization)和個人化方面。我稍後會給大家看一段相關影片。 總之,這些元素共同構成了我們對「媒體2.0」的看法,以及支撐它的技術堆疊,從底層的RTX產品到各種軟體平台和SDK(軟體開發套件)。最重要的是我們的獨立軟體供應商(ISVs),無論是商業用途還是內部開發,一切都在「媒體2.0」技術堆疊上整合起來。我們在這次展會上展示的一個重點是「Hollow Scan for Media」。去年我們在IBC(國際廣播大會)上介紹了這個技術,現在它正進入我們燈塔客戶(lighthouse customers)的全面生產階段。這是一個針對影片製作的軟體定義平台(software-defined platform),如果你熟悉影片製作,就會知道它的意義。 講者 1: 我們為您從事的特定製作類型提供專用硬體 (dedicated hardware)。一輛卡車會開過來,如果您在本地使用多台攝影機進行作業,您會需要切換器 (switchers) 和其他相關設備,而這些都是專門設計的。然而,這裡的挑戰在於,如果您想改變製作類型,就必須更換不同的硬體,並在軟體定義系統 (software-defined system) 上進行不同的操作。但有了這種系統,您可以隨時靈活調整。我把這個概念濃縮成一句話:我們的目標是實現即時的效率提升。 媒體全掃描 (hollow scan for media) 的核心目標,是將即時人工智能 (real-time AI) 融入這個領域。我們在展台上展示了许多不同的軟體產品,目前只是這個平台的起步階段。為什麼即時性這麼重要呢?因為在視訊製作中加入即時功能,意味著您可以在製作過程中,隨時提供高度個人化的功能 (hyper-personalized capabilities)。這一切都與我們的生態系統緊密結合。我們在 NVIDIA 開發者生態系統 (NVIDIA developer ecosystem) 中擁有超過 600 萬名開發者,其中超過 25,000 人已經開始在他們現有的平台中運用人工智能 (AI)。這包括傳統公司和新興公司,他們以創新方式使用 AI。 這正是讓人感到既興奮又有些害怕的地方。特別是當人們看到生成式人工智能 (generative AI) 的應用時,您可以簡單地輸入指令,讓 AI 為您生成一張圖片,或者用文字提示生成一段影片。大約 18 個月前,這項技術首次以真正有意義的方式亮相時,很多人並不知道這背後其實是研究成果的展現。為什麼這一點很重要?因為這些研究並非為了商業化,而是為了驗證可能性。他們用手邊能取得的任何資料進行訓練,這就是研究的本質——探索一個假設的潛在解決方案:這真的可行嗎?於是,他們從網路上蒐集資料,訓練模型,用網路上的圖像生成了人們最初看到的成果。 然而,這種 AI 被推出的方式確實讓一些人感到害怕。他們會問:「這些圖像是怎麼來的?」回答是:「我們在網路上訓練的。」接著大家就炸鍋了,因為網路上沒有明確標示這些內容的創作者是誰,原始藝術家的貢獻沒有被認可。但這並不是研究的初衷。研究的目的是探索可能性,而不是商業應用。然而,一旦進入商業領域,這些問題就顯得合理且必須解決。 因此,當我們談到像 Adobe 這樣多年來一直是我們重要合作夥伴的公司時,他們在現有工具中加入了生成式 AI,例如 Photoshop 和 Lightroom,但他們還開發了一款名為 Firefly 的工具。您可以通過指令生成精美的圖像。Firefly 與其他工具的不同之處在於,它經過負責任的訓練 (responsibly trained)。用於訓練模型的內容是可信的,藝術家的署名權也受到尊重。因此,使用這些工具時,您無需擔心內容來源是否可信,您會得到保障。這是我認為目前業界最重要的一個面向,因為人們對於這些美麗作品如何誕生的恐懼與不確定性,讓大家不再公開談論這項技術。 我們知道有些工作室很想與我們在論壇上討論 AI,但他們被禁止這麼做。上個月,學院軟體基金會 (Academy Software Foundation) 甚至舉辦了一場軟體會議,但他們不能在議程中明確列出 AI 相關主題,否則參與者不會到場。工作室甚至不允許員工參加,儘管當天的核心話題就是 AI。這實在令人費解。但這正是恐懼與不確定性帶來的影響。作為一個產業,我們一直以來都樂於公開分享技術實現的過程。 在眾多新興公司中,有一家名為 Runway 的公司正以生成式 AI 做出驚艷的事情。Runway 幾年前進入這個領域,他們在短時間內取得的成果令人驚嘆。讓我給大家播放一段簡短的影片展示一下。 您覺得要離開了嗎?別急,我們能解決任何問題!請大家稍微安靜一下,好吗?這些成果真的很壯觀,對吧?請為 Runway 鼓掌!他們的很多作品都是通過輸入指令完成的,有些是基於圖像生成或操作實現的。我認為,我們作為一個產業所面臨的挑戰之一,是要理解這些技術只是工具,用來講述故事。最終,電影或劇集的目標是故事本身。這就像傳統媒體領域的演變,從實體模型製作轉向電腦圖形 (computer graphics) 來打造模型,從傳統磨砂畫 (matte painting) 轉向數位繪畫 (digital painting) 來製作背景。世界在進步,我們正在利用這些工具來增強創作。 重要的是要記住,這些工具為講故事的人帶來了新的能力。最近我看到一個特別令人興奮的例子——在場有沒有《星際迷航》(Star Trek) 的粉絲? 講者 1(續): 如果你從事這個行業,你必須是這樣的,對吧?這幾乎是一個先決條件 (prerequisite)。甚至當我在 Alamos 工作《星際迷航》(Star Trek) 時也是如此。這有點像《星際大戰》(Star Wars),但《星際迷航》對我們來說真的很特別。最近有一部名為《統一》(Unification) 的短片,結束了史波克 (Spock) 和柯克 (Kirk) 之間故事的最後一章。這是由 Otoy 公司與《星際迷航》團隊以及羅登伯里 (Roddenberry) 團隊合作完成的。最令人驚嘆的是,現年 90 多歲的威廉·夏特納 (William Shatner) 得以親自扮演自己,而且是即時完成的。他在演這個角色時,能在螢幕上看到自己的樣子。這只是一個簡短的片段,總長 20 分鐘。如果你還沒看過,這部短片已經被下載和觀看超過 3000 萬次,我強烈推薦大家去看看。 這裡最不可思議的地方在於,你能讓演員繼續扮演他們的角色,即使故事設定在他們年輕許多的時期。我們在其他技術中也看到了類似的應用。比如有一場很精彩的演講,是由 Metaphysic 公司的人分享他們的研究成果。他們在這個行業一直是開創性的,從《班傑明的奇幻旅程》(Benjamin Button) 的工作,到現在的電影,都令人驚嘆。所以我強烈建議你們去聽聽 Metaphysic 關於即時去老化 (real-time de-aging) 的演講。Otoy 下個月也將在洛杉磯舉辦一場名為 RenderCon 的會議,我非常推薦你們去看看。我也會參加,真的很期待那場會議上將展示的精彩內容。 我總是喜歡展示一些即將推出的技術預覽。我們有一個創業計畫 (inception program),裡面有超過 20,000 家新創公司,總是會有新鮮有趣的東西出現。我一直在尋找 AI 如何以不同的方式幫助人們,並激發業界的熱情。我最近發現了一家公司,讓我來看看你們有沒有聽過——這款產品叫 Band Maid,來自一家即將在下週結束隱身模式 (stealth mode) 的新公司。我問他們能不能讓我展示這個,他們同意了。 我覺得這個很酷的地方在於,AI 和音頻的結合也是一件讓人既興奮又有些害怕的事情。你是不是想用 AI 重新製作某人的音樂?但他們的理念並非如此,而是希望讓 AI 成為音樂家的伴奏。為什麼呢?因為在學生領域,我們都知道,大多數學生在小學或研究所拿到一件樂器後,超過 65% 的人最終會放棄。他們放棄的原因是失去了靈感,沒有動力再繼續下去。我們見過像《吉他英雄》(Guitar Hero) 這樣的工具能激發興趣,但這家公司更進一步,他們訓練 AI 模型去傾聽演奏者。現在你們將看到的是一個貝斯手現場演奏,而 AI 引擎會即時聆聽並配上音樂。背後的所有音樂都是即時生成的,隨著演奏者的變化,音樂也會隨之改變。他們的目標是推出這個模型,讓有靈感的藝術家能與之合作。你可以想像與一位著名藝術家即興合奏的感覺。為什麼這麼做?因為這能讓人們保持興趣和熱情,並激勵他們創作更多。這是 AI 的一個很棒的應用。 另一家公司則利用多台攝影機和 AI 來製作體視頻 (volumetric video)。這真的很酷,我相信你們很快會在體育和娛樂領域看到更多這樣的應用。看看這個吧。他們用多台攝影機捕捉正在發生的場景,然後通過 AI 將其拼接起來,讓你能從不同角度觀看。這涉及高斯滑動 (Gaussian sliding) 和許多其他技術。這項技術目前還在開發中,他們也剛剛走出隱身模式。但你很快就會看到這些應用實現,而且不久後,它們將能即時完成。想像一下,當你在看比賽時,可以隨時停下來,或從不同角度觀看你喜愛的選手,那會是什麼樣的體驗。 許多公司會自己開發內部軟體來支持他們的製作,像 Pixar 就是其中之一。Pixar 在定製工具 (custom tools) 上做了很多工作,因為他們是一家動畫公司。他們用機器學習 (machine learning) 做了一件很酷的事情:不是完全依賴物理模擬或神經風格轉換 (neural style transfer),他們讓藝術家直接重塑角色。比如在這個案例中,角色 Amber 的火焰效果,藝術家可以直接畫出他們想要的體視覺效果 (volumetric output)。你可以在左邊看到目標風格,右邊則是 AI 驅動的結果。這讓藝術家能更輕鬆地與技術互動,創造出美麗的環境和豐富的場景,而這些通常是非常具有挑戰性的過程。這再次展示了如何用機器學習實現目標,讓工具對藝術家更友好。 有時候,AI 的工作是在幕後完成的。如果你聽過 Beamer 公司,他們也在這次展會上。他們是媒體全掃描 (hollow scan for media) 的開發者之一,同時也在我們的創業生態中。他們做的事情很驚人:他們用 AI 結合技術,為影片創造超解析度 (super resolution)。左邊是低解析度的影片,右邊是高解析度版本,但檔案大小卻沒有傳統方法那麼大。他們利用基於神經網路的超解析度技術,分析低解析度來源,然後智能重建缺失細節,生成 16 倍大的高畫質版本,但檔案大小卻不會過於龐大。你不會看到任何瑕疵或偽影,只有流暢自然的畫面。這背後有許多技術在運作,而我們從中獲得的是更高品質的影片和更低的儲存需求。 我們可能都記得,生成式 AI (generative AI) 領域的一個重要起點是 Stability AI。他們源於我之前提到的研究。最近他們的管理層有了變動,吉姆·卡梅隆 (Jim Cameron) 加入了團隊,現在 Premium 是他們的執行長。他們向我們展示了正在開發的新功能。我覺得在這裡展示很重要,因為他們傾聽了藝術家社群的需求,讓他們在生成式 AI 過程中擁有更多控制權。來看看他們新模型帶來的一些新能力吧。當人們創作內容時,最大的挑戰之一是想自由移動攝影機。他們的模型現在能做到這一點,即使你在生成圖像時,這些圖像仍保留了 3D 資訊,讓你能調整攝影機角度。為什麼這麼做?因為這關乎藝術家如何掌控技術來實現他們的願景,而不僅僅是隨機生成內容。這個虛擬攝影機 (virtual camera) 是電影製作、3D 動畫等領域的數位工具,你會開始看到它被更廣泛應用。我很喜歡他們正在做的事情,他們將電影製作技術融入生成式 AI 的研究並推動其發展。 講者 2: Adoptable 使用機器學習 (machine learning) 將收容所裡狗狗的基本照片轉換成攝影棚品質的照片 (studio-quality photography)。這些收容所的狗狗隨後可以被插入任何數位血統廣告 (digital pedigree ad) 中。每則廣告會引導人們到一個個人化的登陸頁面 (personalized landing page),在那裡他們可以了解更多關於剛剛看到的狗狗的資訊。一旦狗狗被領養,它會立刻從媒體輪播 (media rotation) 中移除。現在,每個血統廣告活動 (pedigree campaign) 都可以展示您附近一隻可領養的狗狗。 講者 3: Adoptable 是一種人工智能模型 (AI model),它試圖精確理解視覺構圖 (visual composition) 和細微差異 (nuance)。我要說的是,色彩識別 (color identity) 可以完全客製化,以匹配收容所裡等待領養的每隻狗狗,甚至細緻到牠們獨特的斑紋 (unique markings)。由於這個環形結構是完全可擴增的 (fully augmentable),狗狗的影像可以被調整定位,以適應任何媒體格式 (media format)。 講者 1: 是的,沒錯。 講者 2: 但目前,每五隻被領養的狗狗中,就有一隻被送回收容所。我們利用地理數據 (geographic data),像是公園的距離 (proximity to parks) 和家庭規模 (household sizes),來分析。Adoptable 會根據這些數據,將狗狗匹配到最適合牠們的地點。 講者 1: 這項活動已在紐西蘭啟動,結果顯示,將狗狗送往新家的成功率提升了 600%。所以,這種生成式 AI (generative AI) 沒什麼可怕的,整個過程也沒什麼好怕的,但最終的成果是沒有它就無法實現的。這些新功能將帶來超個人化 (hyper-personalization),為廣告商帶來更好的效果,也為創作這些內容的藝術家帶來更好的成果。我覺得這是一個很棒的應用案例 (use case),我很喜歡談論這個,因為未來我們會看到更多這樣的例子。 現在,我們把這些技術整合起來,讓開發者更容易使用。我們稱之為微服務 (microservices) 和藍圖 (blueprints)。這些是可以被調用的服務,用來提升效能,特別是在容器化環境 (container-type situation) 中。比起在你的桌面上即時處理,這些微服務的速度快得多。你可以把這些組件拼湊起來,創建一個藍圖 (blueprint)。我們有 NIM,這是一個完整的技術堆疊 (full stack),包含 API 和所有相關服務,你可以從應用程式中直接調用這些服務。根據你的專案需求,你可以靈活組合這些組件。 這裡有一個搜尋與摘要 (search and summarization) 的藍圖範例。這意味著你把所有點連繫起來,就像名字所說的,給開發者提供一個藍圖,告訴他們如何把東西整合起來。如果你到 build.nvidia.com 看看,我們現在已經有數百個這樣的藍圖,而且還在不斷增加。這真的是做事的新方式。我們利用 AI 的所有力量,將其融入微服務中,透過這樣的流程,讓你能比以往更快地實現目標。 當然,我們也有一些客戶正在進行早期測試。例如 Sky Television 正在使用這個技術,提供影片搜尋和摘要功能 (video search and summarization)。當你在觀看時,可以提出問題;如果你離開一會兒再回來,可以得到剛剛錯過的場景摘要,無論是運動比賽還是其他內容。這是一個例子。另一個例子是 Barrels Men,他們也在做類似的事情,利用情境影片 (context video) 理解場景內容,提供回顧 (recaps) 和亮點 (highlights),增強內容的可發現性 (discoverability)。根據你想找的東西,他們還能結合這些技術,提供特定情境的廣告投放 (context-specific ad placements),讓你看到的廣告更符合你的需求。 這裡還有另一個例子,你可以在展場上看到。這是由 Vast 公司使用我們的藍圖和 Metropolis 平台完成的,他們可以直接接入並實現你即將看到的東西。他們在展示舞蹈相關的應用,對吧?我很喜歡這個,因為它真的預示了未來的方向——更個人化、更引人入勝的體驗。無論是體育還是娛樂,甚至是劇集內容 (episodic content),你都能與內容互動,獲取資訊,發現以前不知道的新事物。你還可以深入歷史檔案 (archives),了解過去發生的事情。想想看,有多少行業擁有數十年的檔案素材,無論是運動、Discovery Channel 還是劇集內容,這類內容即將迎來一個全新的時代,以及全新的應用方式。 講者 2: 所以,隨著我們的前進,你會看到並聽到更多這樣的事情。 講者 1: 現在,這一切將走向何方呢?我們的研發實驗室裡正在進行很多工作。我想給大家一點預覽,讓你們看看正在發生的事情,這樣你們就能理解:我看到當前的人工智能 (AI) 的發展,我看到這些新平台正在推動這些技術。我可以在現有產品中體驗到它們,也有一些新公司在做相關的事情。如果我是一個開發者,我可以輕鬆使用這些工具。在媒體技術堆疊 (media stack) 中,這些技術是通用的。那麼,下一步是什麼?未來的世界會如何發展? 我想把這比喻成一個重要的時刻——就像當年你可以用相機拍攝高品質照片,捕捉 2D 影像 (2D imagery) 的時候。想像一下,如果同樣的設備能開始捕捉 3D 影像 (3D imagery),那會是什麼樣子?來看看這個吧。請把音量調大。你們現在看到的是用一台行動裝置來捕捉這個物體,但它不僅僅是捕捉 2D 影像,而是利用 NeRF 和 Gaussian Splat 技術 (G Splat) 來捕捉 3D 資訊。這讓你能與之互動。你可以看到,他們可以直接抹去某個部分,但現在你有了這個物體,可以為它加入運動學 (kinematics),移動它、操作它等等。你還可以賦予它屬性 (properties)。 這些功能就像是你真正在即時打造這個物體時會想要的一切,但現在你只需捕捉它,以 3D 形式記錄下來,然後賦予它可互動的屬性。想像一下,這對創意社群 (creative community) 意味著什麼?當你在自然中看到一個物體,心想:「天啊,我希望能重現這個!」你就可以直接取樣 (sample),將它帶入你的系統,賦予它特定的屬性,然後開始操作它。這就是我們看到的下一波浪潮。 你們昨天在主題演講中也看到了,Jensen 如何帶我們走進 NVIDIA 總部。那是通過類似的技術實現的,他們對環境進行取樣,不需要從頭重建一切。你用 NeRF 和 Splat 技術將環境帶入系統,再應用一些技術來優化那些雲點 (cloud points),最終得到一個非常漂亮的 3D 環境 (3D environment)。讓我在最後幾分鐘,向你們展示這些技術的新能力。這個也有音量,好的,這裡我來幫你們解說。 你們看到的是將一些基本的 3D 物體 (3D objects) 導入系統的能力,然後為它們添加表面 (surfaces),並在周圍應用環境 (environments)。但這還不是全部。你可以用相同的影像生成技術 (image generation) 添加或移動這些物體,調整構圖 (composition),甚至改變環境。這裡展示的只是這些功能的簡單範例。美妙之處在於,這成為藝術家的新工具。他們可以從基本的形式開始,將其精煉成美麗的作品,然後自由探索不同的環境類型。 另外,我之前提到過音頻領域。我們的研究團隊在音頻上也做了很多驚艷的工作。你可能聽過 Forgotten,這是一個新興的研究團隊,專注於音頻技術。他們有 Forgotten、Flamingo 和 Eda 等項目。如果有機會,你可以去看看場外的約翰·藍儂巴士 (John Lennon Bus),他們在那裡運行這些技術。有一位很棒的藝術家 Riza 在現場,他正在實驗並玩這些技術。讓我給你們展示它們能做到什麼。 講者 4: 這些技術讓你能從文字和音頻輸入創造聲音、語音和音樂,為電影或音頻製作提供直接的沉浸式音景 (immersive soundscapes) 和動態音效 (shifting soundscapes)。 講者 1: 嗯。 講者 4: Forgotten 還讓音樂家能通過添加新樂器,來實驗現有的音頻。 講者 1: 嗯。 講者 4: 這完全改變了他們所寫旋律的風格。 講者 1: 嗯,真是很驚艷的東西。再一次,這一切都關乎藝術家追求的目標。我認為,作為一個行業,我們必須記住一個關鍵點:雖然這些新技術可能讓人感到畏懼,甚至有時有些可怕,但它們的核心是你想講述的故事,是音樂家想分享的作品,是最終的成果。我們越能理解這一點,作為一個行業就越不需要害怕。我懇請所有媒體行業的人,我們應該更多地談論這些能力,而不是阻止討論。工作室不應該禁止人們談論這些。談得越多,我們不僅能更了解它,還能解決人們的擔憂,建立輸入和輸出的信任 (trust in and trust out)。 我以前的老闆常說,這些新工具和技術讓新的故事成為可能,這是對團隊的挑戰。他會說:「如果你想做某件事,哪怕這從未有人做過,為什麼要讓這阻止你呢?去做吧,去想辦法解決它。」那麼,你如何開始这一切呢?你要學習、計畫、實踐,去 build.nvidia.com 看看那裡的資源,開始玩這些技術。我總是鼓勵我的團隊拿起這些工具,開始使用,試試看。最壞的情況會是什麼呢?就像數位攝影 (digital photography) 出現時,我的導師告訴我:「盡可能多拍照片。你不用再擔心膠卷,現在你有無限的影像供應,去拍吧。」這讓我成為更好的攝影師。我相信這些技術能力會讓藝術家更出色,也一定會讓講故事的人更優秀。 最後我想說的是,你們看到的這些背後有許多努力。我希望我們能一起為我們的工程和產品團隊鼓掌,是他們讓這一切成為可能。在這個行業工作真的很快樂,我很喜歡看到這些發展。非常感謝大家。請務必去展台看看,參觀新創公司區域,到展示公園瞧瞧正在發生的事情。非常感謝!