# Day-3 魔法的起源GPT-3.5 [](https://hackmd.io/FEnFasQ-Rgu3gQTh29ndoQ) ## 0. 前言 在開始詠唱魔法之前,我們還有一件必須了解的事情。那就是ChatGPT這個魔法世界背後運作的原理,就像是你總不可能在哈利波特的世界裡使用獵人的念能力吧,這樣搞不好佛地魔的魔仗還沒舉起來就直接被西索伸縮自如的愛給搶走了。所以接下來先帶大家認識一些專有名詞:star: -_-:droplet: ## 1. 什麼是 NLP ? LLM ? GPT ? RLHF ? 首先來個別介紹一下這些神奇的專有名詞吧 ### NLP(Natural Language Processing) - **Natural Language(自然語言)**: 這是我們日常生活中使用的語言,比如英語、中文、西班牙語等。與程式語言或其他任務導向的語言系統不同的是,自然語言是由各民族生活習慣及文化演變而來的,較難被電腦所理解,故出現了此一研究領域。 - **Processing(處理)**: 在這裡,處理意味著電腦需要理解和生成這些語言。這包括很多不同的任務,比如翻譯、摘要、問答等。 ### LLM(Large Language Models) - 是一種大型的語言模型,通常由數十億或更多的參數組成。這些參數就像模型的“記憶單位”,幫助它理解和生成文本。由於其大型的結構和龐大的數據訓練基礎,LLM 能夠執行各種複雜的語言任務。 - GPT為其中一種LLM應用 ### GPT(Generative Pre-trained Transformer) - **Generative(生成式)**: GPT 可以自己生成文字。比如,你問它“今天天氣如何?”它可以生成一個回答,像“今天是晴天,溫度適中。” - **Pre-trained(預訓練)**: 在你和它互動之前,它已經在大量的文字資料上進行了訓練。這就像讀了很多書和文章,所以它有很多知識。 - **Transformer(變換器)**: 這是一種特定的數學模型,專門用於理解和生成文字。 ### RLHF(Reinforcement Learning from Human Feedback) - **Reinforcement Learning(強化學習)**:在強化學習中,模型根據在此環境中的操作獲得獎勵或懲罰,嘗試找出最大化獎勵的策略。 - **Human Feedback(人類反饋)**:在這個方法中,人類會對機器的行為給出反饋,這些反饋會被用來調整或改善機器的學習過程。這可以是正面的獎勵或負面的懲罰。 :::success 而這四者的關係可以這樣說: NLP這個研究領域中有一種叫做LLM的模型分類,而GPT又屬於LLM的其中一系列模型,並且採用RLHF方式進行訓練 ::: ## 2. GPT-1、GPT-2、GPT-3.5、GPT-4的差別 ? - 共通點皆為OpenAI所開發的一系列LLM - GPT-3並沒有辦法進行自然的對話,只能處理單向的任務,因此也只有少數開發者有興趣。直到ChatGPT(以GPT-3.5為基底)推出其更接近人類對話與思考方式,此一特點開始吸引了全球的目光。 | 模型 | GPT-1 | GPT-2 | GPT-3.5 | GPT-4 | |:--------:|:---------:|:---------:|:------:|:-----:| | 推出時間 | 2018年6月 | 2019年2月 | 2022年11月 | 2023年3月14日 | | 參數量 | 1.1億 | 15億 | 1750億 | 1.8 兆 | - 因為參數量、訓練資料一代比一代更多更廣的原因,模型對於人類對話的理解能力越來越高,甚至已經超越人類、比人類更精準。 ## 3. 結語 今天的專有名詞有點多,但畢竟這是精準調教模型的必經之路,所以還是要請各位理解其背後的原理,從明天開始會教大家如何下 <ruby>**咒語**<rp>(</rp><rt>prompt</rt><rp>)</rp></ruby> 來變出各式各樣的花招!
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.