Tyng-Ruey Chuang
    • Create new note
    • Create a note from template
      • Sharing URL Link copied
      • /edit
      • View mode
        • Edit mode
        • View mode
        • Book mode
        • Slide mode
        Edit mode View mode Book mode Slide mode
      • Customize slides
      • Note Permission
      • Read
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Write
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Engagement control Commenting, Suggest edit, Emoji Reply
    • Invite by email
      Invitee

      This note has no invitees

    • Publish Note

      Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

      Your note will be visible on your profile and discoverable by anyone.
      Your note is now live.
      This note is visible on your profile and discoverable online.
      Everyone on the web can find and read all notes of this public team.
      See published notes
      Unpublish note
      Please check the box to agree to the Community Guidelines.
      View profile
    • Commenting
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Suggest edit
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
    • Emoji Reply
    • Enable
    • Versions and GitHub Sync
    • Note settings
    • Note Insights
    • Engagement control
    • Transfer ownership
    • Delete this note
    • Save as template
    • Insert from template
    • Import from
      • Dropbox
      • Google Drive
      • Gist
      • Clipboard
    • Export to
      • Dropbox
      • Google Drive
      • Gist
    • Download
      • Markdown
      • HTML
      • Raw HTML
Menu Note settings Versions and GitHub Sync Note Insights Sharing URL Create Help
Create Create new note Create a note from template
Menu
Options
Engagement control Transfer ownership Delete this note
Import from
Dropbox Google Drive Gist Clipboard
Export to
Dropbox Google Drive Gist
Download
Markdown HTML Raw HTML
Back
Sharing URL Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Customize slides
Note Permission
Read
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Write
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Engagement control Commenting, Suggest edit, Emoji Reply
  • Invite by email
    Invitee

    This note has no invitees

  • Publish Note

    Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

    Your note will be visible on your profile and discoverable by anyone.
    Your note is now live.
    This note is visible on your profile and discoverable online.
    Everyone on the web can find and read all notes of this public team.
    See published notes
    Unpublish note
    Please check the box to agree to the Community Guidelines.
    View profile
    Engagement control
    Commenting
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    • Everyone
    Suggest edit
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    Emoji Reply
    Enable
    Import from Dropbox Google Drive Gist Clipboard
       owned this note    owned this note      
    Published Linked with GitHub
    Subscribed
    • Any changes
      Be notified of any changes
    • Mention me
      Be notified of mention me
    • Unsubscribe
    Subscribe
    ## 讓大型語言模型蓬勃發展——資料與技術的開放、協力、自主 莊庭瑞 2025-03-20 --- 刊於「研究資料管理推進室」(RDM Hub),網址:<<https://rdm.depositar.io/resources/20250320-llm>>。 同文亦刊於《科技報導》 第 519 期,2025 年 3 月 15 日發刊。線上版本:<<https://www.scimonth.com.tw/archives/11335>>。 --- <figure> ![](https://hackmd.io/_uploads/Hy8KlqFhke.jpg "Internet Archive Book Images 的 Flickr 相簿——從公眾領域圖書中抽取出的圖像") <center><figcaption><a href="https://www.flickr.com/photos/internetarchivebookimages/page94">Internet Archive Book Images 的 Flickr 相簿</a>——從公眾領域圖書中抽取出的圖像</a></figcaption></center> </figure> 今 (2025) 年初始,大型語言模型 (Large Language Model, LLM) 的領域相當熱鬧,多項發展廣獲關注。舉例來說,DeepSeek AI 公司於一月中旬發布 DeepSeek-R1 模型與研究論文,宣稱能力與市場領頭羊 OpenAI 公司的 o1 模型相當。據產業人士估算,同樣的提問交給 DeepSeek-R1 模型回答所需耗費的能源,大概是 o1 模型所需能源的 5%。由於美國對高階 AI 晶片(高階繪圖處理器與資料通訊模組)出口到中國多有限制,位於杭州的 DeepSeek AI 使用的是非頂級的計算叢集設備,卻展現了前沿 AI 的研發能力。這消息讓美國股票市場上高階 AI 晶片設計商輝達 (NVIDIA) 的股價,在一月份一度下滑達 20%。 不過,本文關注的不是股市或產業,而是開發大型語言模型所需要的巨量圖文素材,究竟從何處取得的議題。這可從臉書母公司 Meta 兩年前發布的大型語言模型 Llama,以及隨後的著作權官司說起。 今年 2 月初,多家媒體揭露這起訴訟案的新發展,Meta 公司遭控經由「安娜典藏庫」(Anna's Archive)[^1] 從 Z-Library 和 LibGen 這兩個「陰影圖書館」(shadow library)[^2] 網站取得高達 35.7TB 的資料。OpenAI 同時也面臨來自《紐約時報》 (_The New York Times_) 的訴訟。面對侵犯著作權的質疑,Meta 以及 OpenAI 等公司通常主張,使用網路上的圖文素材來訓練模型是「合理使用」(Fair Use),並不構成侵權行為;模型訓練完成後,這些素材即可刪除,只留下模型本身。不過,使用受著作權保護的內容是否合於合理使用的情形,還需考量「利用之目的及性質,包括係為商業目的或非營利教育目的」、「所利用之質量及其在整個著作所占之比例」、以及「利用結果對著作潛在市場與現在價值之影響」等事項 (參見臺灣《著作權法》第 65 條;United States Copyright Act of 1976, § 107),並非由使用者單方面宣稱。 [^1]: 安娜典藏庫不只是散布資料,也扮演內容徵集的角色,歡迎大量資料的捐贈,例如從大批掃描影像檔案抽取出的文本。安娜典藏庫號號召使用者一起改善收錄檔案的後設資料,[並增進網站的功能與收錄規模](https://software.annas-archive.li/AnnaArchivist/annas-archive/-/issues/),以群策群力方式經營共用的數位資源園地。 [^2]: 指由不能公開流通的書籍、論文、影音、軟體等大量檔案建置而成的(數位)典藏庫。這些檔案不能公開流通有諸多原因,有些是內容隱晦或不容於當局,更多是因為著作權的限制。陰影圖書館目前已成為眾人取用知識的重要來源,功能角色受到研究者的關注。 在與 Meta 的訴訟中,著作權利人提出的通訊紀錄顯示,Meta 的員工使用了公司的網路跟筆電,並採用 BitTorrent (BT) 協定下載檔案。在 BT 的傳輸協定中,資料的下載者的也成為資料的提供者,這些電腦成為「同儕網路」上互助的資料節點。當特定檔案的需求增多時,供給也可隨著提高,資料如洪流 (torrent) 般在網路中流轉。Meta 若使用 BT 下載陰影圖書館的內容,就表示也同時在網路上散布這些檔案,很難被認定為合理使用的範疇。就連訴訟文件中,Meta 公司某位工程師也曾傳訊表示:「在公司的筆電用 BT,感覺不對😂」(["Torrenting from a corporate laptop doesn't feel right 😂"](https://arstechnica.com/tech-policy/2025/02/meta-torrented-over-81-7tb-of-pirated-books-to-train-ai-authors-say/))。 兩年前 Llama 模型初問世時,[Meta 的論文明示訓練資料來源多樣,書籍占比 4.5%](https://arxiv.org/abs/2302.13971)。其中一部分來自古騰堡計畫 (Gutenberg Project),這些書籍已歸入公眾領域,不受著作權保護;另一部分來自網路上的書籍集成 Books3 檔案,內含近 20 萬冊純文字格式的書籍內文。收於 Books3 的書籍很多仍受著作權保護,這也是著作權人跟 Meta 官司的起源。Meta 發展了一系列的 Llama 模型,但之後的論文就不再列出訓練資料的來源。OpenAI 也是這樣,[GPT-3 模型於 2020 年發布時,論文中還概略列出訓練資料的來源](https://arxiv.org/abs/2005.14165),三年後的 GPT-4 技術報告就完全不提了。 值得關注的是,DeepSeek AI 在 2024 年三月在[一篇關於視覺與語文模型的論文中](https://arxiv.org/abs/2403.05525),詳細列出圖文資料來源。其中包括使用光學字元辨識 (Optical Character Recognition, OCR) 方法,從安娜典藏庫中清理出 86 萬冊英文書籍以及 18 萬冊中文書籍的內文資料為訓練資料。DeepSeek-R1 模型問世後,安娜典藏庫刊出部落格表示「著作權改革已成為國安議題」("Copyright reform is necessary for national security")。西方國家如果要在大型語言模型跟中國競爭,不能不重新審視現行的著作權體制,要縮短著作保護年限(美國保護到著作人死後 70 年,臺灣則是 50 年),並正視大量語文資料的保存與使用。語言模型訓練需要大量圖文資料,陰影圖書館的存在卻有如禁果花園,只能祕而不宣各自進出使用;DeepSeek AI 坦承使用反而相對誠實。相較於中國雖有著作權法,也是「世界智慧財產組織」(World Intellectual Property Organization, WIPO) 的一員,但發展 AI 的過程中是否會面臨同樣的著作權限制,令人持疑。 大型語言模型的發展需要高品質的語文、影音與圖像資料集。資料集的品質很大部分依靠後設資料 (metadata) 以及來源資訊 (provenance) 的精確完整度,且要避免重複收錄。大量圖文素材需要費工清理,才能得到高品質的訓練資料集。用 OCR 方法處理文獻影像檔案之後還需要校讀整修編目,即使部分流程可以(半)自動化不需人工逐項處理,依舊耗用計算資源與儲存設備。資料清理完備後,後續的散布幾乎不需成本 (zero marginal cost of distribution),其實可以共同使用。不過,原始資料若來自陰影圖書館,在散布清理後的資料時就多有顧慮,除非以匿名方式回傳到陰影圖書館。重複的資料清理於是成為研究者的日常,耗費不必要的人力與資源;高品質資料難以流通也限制了跨機構的研究合作。 這類資料清理工作依據目的需求,還包括許多不同的細節。舉例來說,為了要能以自然語言驅動圖像生成,或是讓電腦能看圖說話,研究者需要蒐集大量的圖文對照資料,從網頁、文件、書籍檔案中擷取成對的圖像與圖說;為了建構自動聽寫系統,要從電影劇集影音檔案中,抽取出匹配的音軌與字幕檔;為了研究自動翻譯,也就需要大量的高品質翻譯文本。這些資料蒐集清理的工作,是開發應用系統的基礎,卻常得不到研究單位和科研資助機構的關愛。 雖然遭遇諸多限制,這類資料匯集的工作仍持續進行中。在歐洲因多語言的文化背景與使用環境,建構主題性、高品質、且可共同使用的圖文資料集的工作相對獲得重視。去年 11 月公開、高達兩兆字符 (token) 的「共用語料庫」([Common Corpus](https://huggingface.co/blog/Pclanglais/two-trillion-tokens-open)) 就相當有代表性。此語料庫內容來自已歸入公眾領域的書籍報紙、公部門的經濟法律文件、維基百科全書以及網路上已授權給公眾使用的內容,強調來源清楚、組成多樣 (字符數量上當然還是以英文和法、德、西等歐洲語文居多)。這項專案是歐洲資料基礎聯盟 ALT-EDIC (Alliance for Language Technologies EDIC) 的服務,強調開放且可信任性,部分經費來自法國文化部以及隸屬於總理辦公室的數位總處。 至於影音與圖像,也有多項專案陸續建置可共用的訓練資料集。[YouTube-Commons](https://huggingface.co/datasets/PleIAs/YouTube-Commons) 資料集內容來自 YouTube 上的兩百萬部影片,可從其中抽取出聲音與字幕檔,這些影片都以[「創用 CC 姓名標示」(CC BY)](https://creativecommons.org/licenses/by/4.0/) 授權方式,任何人都可自由使用。YouTube-Commons 的工作同樣受到法國文化部以及數位總處的支持。去年開始的 [Public Domain 12M](https://arxiv.org/abs/2410.23144) 以及十年前就發布的 [Internet Archive Book Images](https://blog.archive.org/2014/08/29/millions-of-historic-images-posted-to-flickr/) 都是可自由取用的公眾領域圖像來源。 在語音方面,非營利組織謀智基金會 (Mozilla Foundation) 的 [Common Voices](https://commonvoice.mozilla.org/) 專案透過簡易的網頁互動方式,持續收錄各地的語音資料,尤其關注弱勢語言,並強調共創共用精神,以 [CC0 公眾領域宣告](https://creativecommons.org/publicdomain/zero/1.0/)方式釋出專案產出的所有資料集,不主張任何著作權利。Mozilla 台灣社群與台灣維基媒體協會目前正以專案經費補助方式,[推動建置可自由使用的排灣、賽德克、撒奇萊雅、泰雅、魯凱、布農等語群的族語語音資料庫](https://moztw.org/common-voice/)。 DeepSeek-R1 模型的發展告訴我們,建構大型語言模型在硬體與能源投資的成本,有機會不再是高不可及,而模型的日常使用成本也可大幅降低。但仍舊需要高品質資料協助大型語言模型的發展,在調校既有模型時尤是。如何取得可開放使用、後設資料完備、且來源清楚的高品質資料集,將是大型語言模型能否「平民化」(democratization) 的關鍵。去年 6 月謀智基金會跟人工智慧公司 EleutherAI 就開放授權的訓練資料集這議題,召集 30 位學者專家共同研討規範原則跟技術實務,初步報告於一月中完成。 就在 2 月 3 日,由歐盟「數位歐洲計畫」(Digital Europe Programme) 資助的 [Open Euro LLM](https://openeurollm.eu/launch-press-release) 專案正式開跑,集結 11 所大學與研究機構、5 家公司以及 4 個高速計算中心,要協力開發一系列真正開放、合乎規範、語文多樣的大型語言模型,確保軟體、資料、模型本身以及評比方法都會公開,並可再次調整使用於公部門跟產業。大型語言模型的發展已進入下個階段,資料與技術的開放、協力、與自主議題,將持續獲得關注,也會是 AI 未來能否平民化的關鍵。 ### 延伸閱讀 Anna and the team. (2025-01-31). _Copyright reform is necessary for national security_. Anna's Blog, <<https://annas-archive.org/blog/ai-copyright.html>>. Karaganis, J., _editor_. (2018). _Shadow Libraries: Access to Knowledge in Global Higher Education_. MIT Press. <<https://doi.org/10.7551/mitpress/11339.001.0001>>. Baack, J. _et al._ (2025-01-14). _Towards Best Practices for Open Datasets for LLM Training_. arXiv:2501.08365, <<https://arxiv.org/abs/2501.08365>>.

    Import from clipboard

    Paste your markdown or webpage here...

    Advanced permission required

    Your current role can only read. Ask the system administrator to acquire write and comment permission.

    This team is disabled

    Sorry, this team is disabled. You can't edit this note.

    This note is locked

    Sorry, only owner can edit this note.

    Reach the limit

    Sorry, you've reached the max length this note can be.
    Please reduce the content or divide it to more notes, thank you!

    Import from Gist

    Import from Snippet

    or

    Export to Snippet

    Are you sure?

    Do you really want to delete this note?
    All users will lose their connection.

    Create a note from template

    Create a note from template

    Oops...
    This template has been removed or transferred.
    Upgrade
    All
    • All
    • Team
    No template.

    Create a template

    Upgrade

    Delete template

    Do you really want to delete this template?
    Turn this template into a regular note and keep its content, versions, and comments.

    This page need refresh

    You have an incompatible client version.
    Refresh to update.
    New version available!
    See releases notes here
    Refresh to enjoy new features.
    Your user state has changed.
    Refresh to load new user state.

    Sign in

    Forgot password

    or

    By clicking below, you agree to our terms of service.

    Sign in via Facebook Sign in via Twitter Sign in via GitHub Sign in via Dropbox Sign in with Wallet
    Wallet ( )
    Connect another wallet

    New to HackMD? Sign up

    Help

    • English
    • 中文
    • Français
    • Deutsch
    • 日本語
    • Español
    • Català
    • Ελληνικά
    • Português
    • italiano
    • Türkçe
    • Русский
    • Nederlands
    • hrvatski jezik
    • język polski
    • Українська
    • हिन्दी
    • svenska
    • Esperanto
    • dansk

    Documents

    Help & Tutorial

    How to use Book mode

    Slide Example

    API Docs

    Edit in VSCode

    Install browser extension

    Contacts

    Feedback

    Discord

    Send us email

    Resources

    Releases

    Pricing

    Blog

    Policy

    Terms

    Privacy

    Cheatsheet

    Syntax Example Reference
    # Header Header 基本排版
    - Unordered List
    • Unordered List
    1. Ordered List
    1. Ordered List
    - [ ] Todo List
    • Todo List
    > Blockquote
    Blockquote
    **Bold font** Bold font
    *Italics font* Italics font
    ~~Strikethrough~~ Strikethrough
    19^th^ 19th
    H~2~O H2O
    ++Inserted text++ Inserted text
    ==Marked text== Marked text
    [link text](https:// "title") Link
    ![image alt](https:// "title") Image
    `Code` Code 在筆記中貼入程式碼
    ```javascript
    var i = 0;
    ```
    var i = 0;
    :smile: :smile: Emoji list
    {%youtube youtube_id %} Externals
    $L^aT_eX$ LaTeX
    :::info
    This is a alert area.
    :::

    This is a alert area.

    Versions and GitHub Sync
    Get Full History Access

    • Edit version name
    • Delete

    revision author avatar     named on  

    More Less

    Note content is identical to the latest version.
    Compare
      Choose a version
      No search result
      Version not found
    Sign in to link this note to GitHub
    Learn more
    This note is not linked with GitHub
     

    Feedback

    Submission failed, please try again

    Thanks for your support.

    On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

    Please give us some advice and help us improve HackMD.

     

    Thanks for your feedback

    Remove version name

    Do you want to remove this version name and description?

    Transfer ownership

    Transfer to
      Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.

        Link with GitHub

        Please authorize HackMD on GitHub
        • Please sign in to GitHub and install the HackMD app on your GitHub repo.
        • HackMD links with GitHub through a GitHub App. You can choose which repo to install our App.
        Learn more  Sign in to GitHub

        Push the note to GitHub Push to GitHub Pull a file from GitHub

          Authorize again
         

        Choose which file to push to

        Select repo
        Refresh Authorize more repos
        Select branch
        Select file
        Select branch
        Choose version(s) to push
        • Save a new version and push
        • Choose from existing versions
        Include title and tags
        Available push count

        Pull from GitHub

         
        File from GitHub
        File from HackMD

        GitHub Link Settings

        File linked

        Linked by
        File path
        Last synced branch
        Available push count

        Danger Zone

        Unlink
        You will no longer receive notification when GitHub file changes after unlink.

        Syncing

        Push failed

        Push successfully