# 目錄 1. [User-agent](#User-agent:) 2. [Disallow](#Disallow:) 3. [Allow](#Allow:) 4. [Sitemaps](#Sitemaps:) 5. [參考資料](#參考資料) # robot.txt 寫法 大概會長這樣 :  接下來解析用法 : ## `User-agent:` 在網路上操作的任何人或程式都擁有一個 **使用者代理程式** ,這東西幫助網站管理員瞭解哪種機器人正在爬行網站,在上方範例中 `User-agent:` 設為 `*` 這符號代表萬用字元,表示指令適用於每個機器人。 而 `User-agent:` 後方可以接上這些常見東西 : - Google: - Googlebot(google 搜尋) - Googlebot-Image(用於影像) - Googlebot-News(用於新聞) - Googlebot-Video(用於影片) - Bing : - Bingbot(Bing 搜尋) - MSNBot-Media(用於影像和影片) - 百度 : - Baiduspider(百度搜尋) ## `Disallow:` `Disallow` 是 Robots 排除通訊協定中最常見的指令,告訴機器人不要存取命令後面的網頁。但不允許的頁面不一定是 **隱藏的** —— 只是對普通的 **使用者代理程式** 沒有用,所以不會顯示。大多數情況下,網站上的使用者如果知道在哪裡可以找到它們,則仍然可以導覽到這些頁面。 Disallow 命令可以透過多種方式使用,範例中顯示了其中幾種方式 : ***以下的舉例均由 cloudflare 提供*** - 封鎖一個檔案(或是網頁) : 在 `disallow` 指令之後會接上包含首頁後面的網頁 URL 部分,之後該 URL 就不會出現在搜尋的結果中,也就是不會被機器人爬蟲到。 - 舉例 : 執行 `Disallow: /learning/bots/what-is-a-bot/`後,此網址 `https://www.cloudflare.com/learning/bots/what-is-a-bot/` 不會出現在搜尋引擎結果中。 (因為前方是有使用 `/` 代表是在這個網頁 `www.cloudflare.com` 當中的網站) - 封鎖一個目錄 : 一次封鎖多個頁面比逐個列出所有頁面更有方便。所以當想要封鎖的頁面都在網站的同一區段,則 robots.txt 檔案可以封鎖包含它們的目錄。 - 舉例 : `Disallow: /__mesa/` 代表不應爬行 __mesa 目錄中包含的所有頁面。 - 允許完全存取 : 這告訴機器人它們可以瀏覽整個網站,因為沒有什麼是不允許的。 - 舉例 : `Disallow:` 就是允許完全存取 - 對機器人隱藏整個網站 : 直接使用 `Disallow: /`,這裡的 `/` 表示網站階層中的「根」,包括首頁和從它連結的所有頁面。會讓搜尋引擎機器人完全無法爬行此網站。 - 舉例 : `Disallow: /` 就是隱藏整個網站 ## `Allow:` 與 `Disallow:` 相反,也就是說指定哪些頁面是可以爬取的,其餘的都被禁止 ## `Sitemaps:` 幫助機器人瞭解在爬行網站時要包含哪些內容,透過網站地圖通訊協定,也就是 `Sitemaps:`,指向這些網站地圖的連結可以包含在 `robots.txt` 檔案中。格式為:`Sitemaps: <XML 檔案的網址>` ## 參考資料 https://www.cloudflare.com/zh-tw/learning/bots/what-is-robots-txt/ 備註 : 整篇文章幾乎都參考 cloudflare,沒經過授權拜託別告我嗚嗚
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up