# 目錄 1. [User-agent](#User-agent:) 2. [Disallow](#Disallow:) 3. [Allow](#Allow:) 4. [Sitemaps](#Sitemaps:) 5. [參考資料](#參考資料) # robot.txt 寫法 大概會長這樣 :  接下來解析用法 : ## `User-agent:` 在網路上操作的任何人或程式都擁有一個 **使用者代理程式** ,這東西幫助網站管理員瞭解哪種機器人正在爬行網站,在上方範例中 `User-agent:` 設為 `*` 這符號代表萬用字元,表示指令適用於每個機器人。 而 `User-agent:` 後方可以接上這些常見東西 : - Google: - Googlebot(google 搜尋) - Googlebot-Image(用於影像) - Googlebot-News(用於新聞) - Googlebot-Video(用於影片) - Bing : - Bingbot(Bing 搜尋) - MSNBot-Media(用於影像和影片) - 百度 : - Baiduspider(百度搜尋) ## `Disallow:` `Disallow` 是 Robots 排除通訊協定中最常見的指令,告訴機器人不要存取命令後面的網頁。但不允許的頁面不一定是 **隱藏的** —— 只是對普通的 **使用者代理程式** 沒有用,所以不會顯示。大多數情況下,網站上的使用者如果知道在哪裡可以找到它們,則仍然可以導覽到這些頁面。 Disallow 命令可以透過多種方式使用,範例中顯示了其中幾種方式 : ***以下的舉例均由 cloudflare 提供*** - 封鎖一個檔案(或是網頁) : 在 `disallow` 指令之後會接上包含首頁後面的網頁 URL 部分,之後該 URL 就不會出現在搜尋的結果中,也就是不會被機器人爬蟲到。 - 舉例 : 執行 `Disallow: /learning/bots/what-is-a-bot/`後,此網址 `https://www.cloudflare.com/learning/bots/what-is-a-bot/` 不會出現在搜尋引擎結果中。 (因為前方是有使用 `/` 代表是在這個網頁 `www.cloudflare.com` 當中的網站) - 封鎖一個目錄 : 一次封鎖多個頁面比逐個列出所有頁面更有方便。所以當想要封鎖的頁面都在網站的同一區段,則 robots.txt 檔案可以封鎖包含它們的目錄。 - 舉例 : `Disallow: /__mesa/` 代表不應爬行 __mesa 目錄中包含的所有頁面。 - 允許完全存取 : 這告訴機器人它們可以瀏覽整個網站,因為沒有什麼是不允許的。 - 舉例 : `Disallow:` 就是允許完全存取 - 對機器人隱藏整個網站 : 直接使用 `Disallow: /`,這裡的 `/` 表示網站階層中的「根」,包括首頁和從它連結的所有頁面。會讓搜尋引擎機器人完全無法爬行此網站。 - 舉例 : `Disallow: /` 就是隱藏整個網站 ## `Allow:` 與 `Disallow:` 相反,也就是說指定哪些頁面是可以爬取的,其餘的都被禁止 ## `Sitemaps:` 幫助機器人瞭解在爬行網站時要包含哪些內容,透過網站地圖通訊協定,也就是 `Sitemaps:`,指向這些網站地圖的連結可以包含在 `robots.txt` 檔案中。格式為:`Sitemaps: <XML 檔案的網址>` ## 參考資料 https://www.cloudflare.com/zh-tw/learning/bots/what-is-robots-txt/ 備註 : 整篇文章幾乎都參考 cloudflare,沒經過授權拜託別告我嗚嗚
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.