Try   HackMD

Selenium 爬蟲使用 Tor 匿蹤教學

tags: Python Selenium Tor Tutorials

下載

以下 2 個是在 Windows 運行所需,第 1 個也可以換成下載一般 Tor Browser。

1. Tor Windows Expert Bundle

https://www.torproject.org/download/tor/

2. Vidalia

https://people.torproject.org/~erinn/vidalia-standalone-bundles/
選擇 vidalia-standalone-0.2.21-win32-1_en-US.exe 下載。

上面兩個都安裝後,執行 Vidalia,第一次會需要設定 Tor 路徑,也就是 Windows Expert Bundle(或 Tor Browser)所安裝的 tor.exe 的路徑。

實際運行

開啟 Vidalia,Start Tor,接著執行下面程式碼:

from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--proxy-server=socks5://localhost:9050') driver = webdriver.Chrome(chrome_options=chrome_options) driver.get('https://icanhazip.com')

就會看到由 Tor 所取得的新 IP 啦!

注意事項

  1. 使用 Tor 進行跳板雖可以匿蹤,但也增加了頁面讀取所需時間。
  2. Tor 每 20 分鐘會更新一次 IP,但用於爬蟲還是需要縮短更新時間。
  3. 若能多開 Tor client,則可以彌補第 1 點的問題。

參考連結

  1. 使用 Tor 進行網路爬蟲
  2. 偽造身份進行網路爬蟲
  3. 多開 Tor client