<!-- {%hackmd @yun-cheng/theme %} --> # Selenium 爬蟲使用 Tor 匿蹤教學 ###### tags: `Python` `Selenium` `Tor` `Tutorials` [TOC] ## 下載 以下 2 個是在 Windows 運行所需,第 1 個也可以換成下載一般 Tor Browser。 ### 1. Tor Windows Expert Bundle > https://www.torproject.org/download/tor/ ### 2. Vidalia > https://people.torproject.org/~erinn/vidalia-standalone-bundles/ > 選擇 `vidalia-standalone-0.2.21-win32-1_en-US.exe` 下載。 上面兩個都安裝後,執行 Vidalia,第一次會需要設定 Tor 路徑,也就是 Windows Expert Bundle(或 Tor Browser)所安裝的 tor.exe 的路徑。 ## 實際運行 開啟 Vidalia,Start Tor,接著執行下面程式碼: ```python= from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--proxy-server=socks5://localhost:9050') driver = webdriver.Chrome(chrome_options=chrome_options) driver.get('https://icanhazip.com') ``` 就會看到由 Tor 所取得的新 IP 啦! ## 注意事項 1. 使用 Tor 進行跳板雖可以匿蹤,但也增加了頁面讀取所需時間。 2. Tor 每 20 分鐘會更新一次 IP,但用於爬蟲還是需要縮短更新時間。 3. 若能多開 Tor client,則可以彌補第 1 點的問題。 ## 參考連結 1. [使用 Tor 進行網路爬蟲](https://hardliver.blogspot.com/2017/06/web-crawler-tor-ip.html) 2. [偽造身份進行網路爬蟲](https://hardliver.blogspot.com/2018/04/selenium.html) 3. [多開 Tor client](https://hardliver.blogspot.com/2018/03/tor-tor-client.html)