robot.txt 寫法 :

# 目錄 1. [User-agent](#User-agent:) 2. [Disallow](#Disallow:) 3. [Allow](#Allow:) 4. [Sitemaps](#Sitemaps:) 5. [參考資料](#參考資料) # robot.txt 寫法大概會長這樣 : ![](https://hackmd.io/_uploads/ByFGWL83n.png) 接下來解析用法 : ## `User-agent:` 在網路上操作的任何人或程式都擁有一個 **使用者代理程式** ，這東西幫助網站管理員瞭解哪種機器人正在爬行網站，在上方範例中 `User-agent:` 設為 `*` 這符號代表萬用字元，表示指令適用於每個機器人。而 `User-agent:` 後方可以接上這些常見東西 : - Google： - Googlebot(google 搜尋) - Googlebot-Image（用於影像） - Googlebot-News（用於新聞） - Googlebot-Video（用於影片） - Bing : - Bingbot(Bing 搜尋) - MSNBot-Media（用於影像和影片） - 百度 : - Baiduspider(百度搜尋) ## `Disallow:` `Disallow` 是 Robots 排除通訊協定中最常見的指令，告訴機器人不要存取命令後面的網頁。但不允許的頁面不一定是 **隱藏的** —— 只是對普通的 **使用者代理程式** 沒有用，所以不會顯示。大多數情況下，網站上的使用者如果知道在哪裡可以找到它們，則仍然可以導覽到這些頁面。 Disallow 命令可以透過多種方式使用，範例中顯示了其中幾種方式 : ***以下的舉例均由 cloudflare 提供*** - 封鎖一個檔案（或是網頁） : 在 `disallow` 指令之後會接上包含首頁後面的網頁 URL 部分，之後該 URL 就不會出現在搜尋的結果中，也就是不會被機器人爬蟲到。 - 舉例 : 執行 `Disallow: /learning/bots/what-is-a-bot/`後，此網址 `https://www.cloudflare.com/learning/bots/what-is-a-bot/` 不會出現在搜尋引擎結果中。 (因為前方是有使用 `/` 代表是在這個網頁 `www.cloudflare.com` 當中的網站) - 封鎖一個目錄 : 一次封鎖多個頁面比逐個列出所有頁面更有方便。所以當想要封鎖的頁面都在網站的同一區段，則 robots.txt 檔案可以封鎖包含它們的目錄。 - 舉例 : `Disallow: /__mesa/` 代表不應爬行 __mesa 目錄中包含的所有頁面。 - 允許完全存取 : 這告訴機器人它們可以瀏覽整個網站，因為沒有什麼是不允許的。 - 舉例 : `Disallow:` 就是允許完全存取 - 對機器人隱藏整個網站 : 直接使用 `Disallow: /`，這裡的 `/` 表示網站階層中的「根」，包括首頁和從它連結的所有頁面。會讓搜尋引擎機器人完全無法爬行此網站。 - 舉例 : `Disallow: /` 就是隱藏整個網站 ## `Allow:` 與 `Disallow:` 相反，也就是說指定哪些頁面是可以爬取的，其餘的都被禁止 ## `Sitemaps:` 幫助機器人瞭解在爬行網站時要包含哪些內容，透過網站地圖通訊協定，也就是 `Sitemaps:`，指向這些網站地圖的連結可以包含在 `robots.txt` 檔案中。格式為：`Sitemaps: <XML 檔案的網址>` ## 參考資料 https://www.cloudflare.com/zh-tw/learning/bots/what-is-robots-txt/ 備註 : 整篇文章幾乎都參考 cloudflare，沒經過授權拜託別告我嗚嗚