Try  HackMD Logo HackMD

2024-12-03 問答簡記

2024 年台灣太空國際年會 (TASTI)

最大太空盛會 TASTI 開幕

從「百億億」(Exa)到「百億億億」(100 Yotta) 的 AI 運算

出處

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

自 2022 年 11 月 30 日 ChatGPT 發表以來,雖然只過二年,但已讓人工智慧的發展徹底進入世界大眾的視野。尤其是人工智慧對計算能力的龐大需求,對全球半導體產業帶來了巨大的影響。以下整理對未來人工智慧計算能力需求增長的看法。

訓練所需的計算能力

訓練一個人工智慧模型所需的計算能力增長極其迅速:

  • 2012 年 (AlexNet):訓練需求約為 1 Exa FLOPS (
    1018
    ),即百億億次浮點運算。
  • 2023 年 (Gemini Ultra):訓練需求已達到 100 Yotta FLOPS (
    1026
    ),即百億億億次浮點運算。

短短十年間,計算能力需求增長達到一億倍。然而,同期依照摩爾定律,CPU 的計算能力大約僅增長 100 倍,與此增長相比相差百萬倍。

摩爾定律預測晶體管密度每約 1.5 年翻倍,因此十年大約為 6.66 個週期,計算能力增長約為

26.66 ≈ 100 倍。這也是過去估算超級電腦進展的簡易方式。

即便加上 GPU 的計算能力增長,以 NVIDIA 創辦人黃仁勳的估計,GPU 的計算能力每十年約增長 1000 倍,這增速雖比摩爾定律高出十倍,但與十年內一億倍的增長相比,依然有十萬倍的差距。

因此,為彌補這樣的差距,業界採用大量 GPU 或專為人工智慧設計的計算能力晶片,透過水平擴展 (Scale-Out) 的方式提供運算能力。這也使得我們見到 Elon Musk 為 x.AI 購置十萬顆 H100 GPU,但仍不足以滿足需求,甚至需要再增建十萬顆 GPU。令人玩味的是,2012 年的 AlexNet 訓練僅需兩顆 GPU,如今 Musk 所建構的運算規模,正好比 AlexNet 提高約十萬倍。

目前,人工智慧訓練計算能力建置已成為 OpenAI, Google, Microsoft, Meta, xAI 等科技巨頭之間的軍備競賽。這場競爭,將決定未來人工智慧能力的發展格局。在分出勝負之前,這場競爭勢必持續。

推論所需的計算能力

除了訓練需求外,推論 (Inference)的計算能力需求也日益重要,並呈現以下幾大趨勢:

  • 推論計算需求顯著增加

近期 OpenAI 推出的 o1 (Strawberry) 展示 Chain-of-Thought 技術,能顯著提升推論時的能力,使模型在部分指標上達到博士級水準。但其代價是大幅提高推論的運算需求。

OpenAI 研究副總裁 Mark Chen 在演講中提到,未來將同步推進訓練計算能力與推論計算能力的進展,這將改變傳統上「訓練需求遠高於推論需求」的情況,未來兩者的重要性將趨於均衡。此外,多代理系統 (Multi-Agent Systems) 的發展,也將推高推論端的計算能力需求。

  • 人工智慧應用的普及化

目前,人工智慧的實際應用仍處於探索階段,使用者多為擁有資源的早期採用者。然而,未來若人工智慧成功應用於各行各業,將成為數十億人日常使用的重要工具,推論運算需求也會隨之顯著增加。

  • 雲端端:將由 GPU、TPU 及特定設計的 ASIC 滿足推論需求。
  • 邊緣設備 (Edge Device):靠近使用者的裝置將帶動對半導體的龐大需求。

根據《經濟學人》的報導,未來人工智慧半導體市場比例可能如下:

  • 訓練:15%
  • 資料中心推論:45%
  • 邊緣設備推論:40%

NVIDIA

One tiny country drove 15% of Nvidia's revenue – here's why it needs so many chips
新加坡在 2023 年第三季度成為 NVIDIA 營收的第四大來源,占比達到 15%。這一成績僅次於美國、台灣和中國,它們的營收貢獻分別為 34.77%, 23.91% 和22.24%。新加坡之所以能達到這樣的成績,主要是因為其在資料中心領域的強大吸引力,吸引大量外資企業在此建立資料中心。此外,NVIDIA 在資料中心市場的銷售佔其總營收的 80%,這也是新加坡營收比重高的重要原因。

最近,NVIDIA 的首席執行官黃仁勳在新加坡與總理李顯龍及經濟發展局的高層進行會面,提到在新加坡投資建立一個具有標誌性意義的人工智慧中心的可能。此外,NVIDIA 正與新加坡的二個政府機構(IMDA 和 A*Star)及學術機構(新加坡國立大學和南洋理工大學)合作,開發名為 SEA-LION 的大型東南亞語言模型。這個模型旨在支援 11 種東南亞語言,以反映該地區獨特的文化和語言習慣,這與西方世界的訓練資料有所不同。該計劃為期兩年,預算為 7000 萬新加坡元 (相當於 5200 萬美元或 16 億台幣),目前模型的參數量達到 70 億。

此外,新加坡副總理近日宣布推動國家 AI 策略 2.0,計劃將現有的 4500 名 AI 人才增加到 15000 名,這可能會帶來更多 AI 相關的職位機會。目前,在新加坡具有影響力且規模較大的 AI 團隊不多,這使得在字節跳動從事 AI 工作的專業人士不確定應該如何轉換跳槽。然而,最近有幾家具有國際性的公司在新加坡招聘 AI 人才,包括 Meta,計劃在此建立短影片推薦團隊,以及 Salesforce 計劃擴增其在新加坡的研究團隊。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

GPT4 was presumably trained for around 90 days using 25k A100 GPUs. Microsoft and Meta having reportedly bought 150k H100 GPUs each this year, can now train a GPT4 class model in only 7 days from scratch (not even including their existing GPU stockpile). [ source ]

video: 在訴訟與罵名中崛起的輝達 GPU:從未停止過戰鬥,也沒有永遠的朋友
video: 從游戲顯卡、礦卡到「AI霸主」,英偉達憑什麽?

Intel

Intel Announces Retirement of CEO Pat Gelsinger

Pat Gelsinger 先是退休,才由 Intel 網站公告,不令人意外。2024 年 8 月,Intel 公布第二季財報,顯示虧損高達 16 億美元,其中製造部門的表現尤為慘淡,虧損數十億美元。當時就有傳聞,Intel 正考慮撤換執行長。

Gelsinger 的職業生涯充滿技術突破。他年輕時便帶領團隊開發經典的 80486 處理器,並參與設計多款創新的處理器架構。離開 Intel 後,他先後領導 EMC 和 VMware 等公司,累積雲端運算、資料中心與軟體領域的豐富經驗,成為業界備受尊敬的技術領袖。許多人認為,他會是帶領 Intel 擺脫困局的領導者。

然而,Gelsinger 面臨的挑戰比想像中更為艱鉅。前兩任 CEO 所遺留下的技術陷阱尚未填補,他還需應對 TSMC、AMD 和 NVIDIA 等競爭對手在多條產品線上的壓力。此外,Intel 在晶圓代工業務上的戰略更是進退兩難,成為他無法解開的關鍵難題。

Intel 多年來的研發支出占全球半導體產業的 15% 至 20%,專利技術覆蓋產業上下游,且長期推動業界技術與標準的演進。但從營運層面來看,Intel 在產品營收與毛利下滑的同時,仍背負巨額晶圓代工成本,及遠高於業界平均的研發支出。作為最後一家數位邏輯晶片的 IDM 大廠,Intel 在高度分工的半導體產業中,面對效率與成本的挑戰可謂步履維艱。

Gelsinger 的離職似乎也暗示 Intel 未來可能放棄艱難的晶圓代工戰略,選擇更容易執行的業務模式。對於晶圓代工龍頭 TSMC 而言,這無疑是一大利多。在消息公布後,整個半導體產業的股票大幅上漲,從設備供應商到 IC 設計公司皆大獲其利。然而,Intel 股價的表現卻不盡人意。在短暫反彈後迅速回落,顯示市場對 Intel 營運策略的不確定性仍存憂慮。或許,這正應驗「一鯨落,萬物生」。

TSMC 於 2018 年推出的 7 奈米製程技術,正式超越 Intel,距今僅短短六年。然而,Intel 的困境並非六年前才開始醞釀。Intel 共同創辦人 Andy Grove 的傳記《十倍速時代》中那句「唯有偏執者得以生存」(Only the Paranoid Survive),至今仍是經典。然而,今日的半導體競爭早已不止十倍速。

2022 年,Intel 的營收和獲利同比分別下滑 20% 和 60%,且由於 PC 市場的崩潰與伺服器市場被 AMD 嚴重侵蝕,僅在 2022 年第四季,Intel 就虧損 6.6 億美元,而 TSMC 則在同一季度獲利近 100 億美元。這種對比令人唏噓。

TSMC 不僅在 2022 年創下營收和獲利的歷史新高,更首次突破台灣企業一年淨利超過 1 兆元的里程碑,全年稅後淨利達 1 兆 165.3 億元,年增 70.4%。毛利率高達 62.2%,營業利益率更是達到驚人的 52%。與此同時,TSMC 總裁魏哲家在法說會中表達持續成長的信心,即便全球半導體市場可能小幅衰退,TSMC 營收仍持續增長。

台灣的系統廠雖仰賴 TSMC 製造晶片,但並不直接向 TSMC 下單,而是透過供應鏈內的其他業者 (如 Intel 和 AMD) 整合供應。這使得「台灣有 TSMC」與「系統廠能否獲得足夠晶片」成為兩個截然不同的命題。Intel 長期為台灣系統廠提供技術支援與行銷資源,甚至連國際知名品牌的 OEM 都受益於 Intel 的支持。

自 1970 年代起,垂直分工取代垂直整合成為產業組織的新趨勢。根據 A. Gawer 和 R. Henderson 的描述,Intel 將業務分為:

  1. 核心業務:擴大微處理器市場需求(稱為 "Job 1")。
  2. 非核心業務:發展專有知識產權的盈利市場(稱為 "Job 2"),例如圖形處理器和其他周邊產品。

Intel 採取「核心利益說」的策略,對核心業務保持強硬,對非核心業務則相對寬柔。例如,在非核心業務中允許其他廠商免費使用其技術,以促進整個生態系統的發展。

TSMC 與 Intel 的製造方式有顯著差異:TSMC 的製程線通常有極長的存續期限,能夠長期支援客戶產品。而 Intel 因為主要生產自家產品,且產品重心集中於持續演進的 CPU,舊製程的產能利用率常迅速下降,不得不淘汰過時的產線。

面試和互動

校友經驗分享問答: Tony

  1. Intern 的選擇
    • 在履歷上有加分作用
    • 牌子大的優先
  2. 海外求職眉角
    • 求職方的準備流程不多
    • 缺開出來就投
  3. 畢業後的 Offer
    • 先投 Startup 練面試
      • Startup 的 Hire 流程比較快
      • 快則 2-3 週
    • 也把 Offer 當 Backup
  4. 選 AWS 的原因
    • 目標:想要參與高流量的 back-end 開發
      • AWS CloudWatch Million QPS
    • What's CloudWatch
    • 在開發時會想更多效率上的優化
      • Case: 改一個流程幫公司省了 7 Million USD
  5. AWS 面試流程
    1. Online Assessment (OA)
    2. Visual interview
      • Amazon 注重 Leadership
      • Behavior question
  6. Performance Improvement Plan
    • 參考
    • Tony 澄清:不容易發生
  7. Bloomberg terminal
    • 金融資訊整合系統
      • 股價、新聞消息
    • 參考

看到缺就投!

AWS 招募 2025 畢業生: 透過這個管道來愛爾蘭,下一步:美國

問答區

  1. 學長認為公司要的是有 basic knowledge 的人才,但您同時也做了很多專案,那您認為做專案(自己鑽研加深加廣的知識)是公司看到您的關鍵之一嗎?這件事的必要性?還是先把刷題顧好就好?

    如果目標只是找一份工作的話,大公司工作刷題

  2. 去歐洲沒有身份的話,如果是小廠容易過去嗎

    公司會處理簽證,要在面試的時候要提到沒有身分

  3. 近期看到歐洲較多的新聞似乎傳產在裁員,想請教一下目前在軟體業上還是有很多職缺嗎?還是只有大廠的部分才有許多的軟體職缺?另外如果投的話有沒有什麼需要避雷的注意事項?還是內推會比較有機會? 謝謝學長

    難避雷,進公司之後都一樣,歐洲勞基法保護的很好,裁員要寫超長報告,所以政府保護你不會被裁,公司比較會裁performence相關的

  4. 想請問學長是否覺得後端這種高階的技術工作容易被 AI 取代?

  5. 請問除了準備好面試以外,在履歷的部分要怎麼下功夫,才能被大公司看上獲得面試機會?除了在校成績以外,還有什麼可以準備的地方嗎?是做side project呢,還是有其他方向可以下手?
    怕自己連面試的機會都沒有。

成大機會很多

  1. 像是這樣面對國外面試等等,是否會看IELTS or TOFEL的成績等等。在面試上之後,在學長前面有說明是公司會處理出國等事項,想要知道更詳細的解釋。

    成大基本英文即可,能夠進行技術溝通最為重要(解決問題)

  2. AWS 用 Open Source 的比例? 還是都比較向都刻自己的輪子呢?

    自己刻輪子

  3. CloudWatch 本身比較偏向 Real Time OLTP 還是比較偏向 Data Engineering 的 Real Time Pipline 來處理? ( OLAP )

timestamp
In Memory DB + S3
Partition by datetime ( storage )
Partition by query range ( recently : In Memory , old: S3 )

  1. AWS 的 Service ( E.g. CloudWatch ) 也會 based on AWS 其他 service 嗎? ( E.g. Based on EC2, EKS )

Tier0, Tier1, service
Tier1 depends on Tier0
得看是新的還是舊的service

  1. 之前實習在投遞和之前經歷無關的職缺時,會根據JD客製化履歷嘛?在面試時會被質疑相關能力嗎?

  2. 走純軟目前都說未來前途不好,但對於資訊領域自己也不知道該往哪條方向走,想請問該怎麼辦?

  3. 建議實習應該要待多久? E.g. 有被更高薪水的 Reach Out 但是現在的實習還是不錯的練功房, 但是只待幾個月好像感覺還沒學到位 (?

  4. 在各家公司待的時間長短會影響下一家面試嗎?是否會因此被刁難

  5. 最近研究所有一種不平衡的感覺,好像在當老師的賺錢工具,我沒辦法花精力在提升自己的實力。我該選擇換老師嗎?還是該如何調適呢?因為無法確定是不是自己太草莓了

  6. 如何找到open source的project並參與開發?如果是做人工智慧領域的研究,歐洲的給new grad工作機會多嗎?

    專長如果是ai,若一開始想走ai的話大公司很困難,可以先從小公司開始

  7. 想請問 AWS 內部是不是有類似 k8s 的 distributed orchestration tool ( 不是 container level 是 bare metal level )來保持各個 node 之間的狀態 ( e.g. 自動故障轉提的 tool 來達到 EC2 的 Fail-Tolerant ? )

  8. 以 CloudWatch 的 QPS 量級來說, 需要有多少 cluters 或 partition 才能達到呢?

  9. 這樣 CloudWatch 在各個 Region 都有至少部屬一個 Cluster 嗎 ?