我們在做爬蟲的時候經(jīng)常會遇到這樣的情況。剛開始的時候,爬蟲正常運(yùn)行,正常捕獲數(shù)據(jù),一切看起來都那么美好。但在喝茶的時候可能會有誤區(qū),比如403禁。此時打開網(wǎng)頁,可能會看到提示“您的IP訪問頻率過高”,造成這種現(xiàn)象的原因是網(wǎng)站采取了一些防爬蟲措施。例如,服務(wù)器將檢測單位時間內(nèi)對一個IP的請求數(shù),如果超過這個閾值,它將直接拒絕服務(wù),并返回一些錯誤消息,這種情況可以稱為IP被封。
由于服務(wù)器檢測到某個IP的單位時間內(nèi)的請求數(shù),我們可以以某種方式偽裝我們的IP,使服務(wù)器無法識別由我們的本地機(jī)器發(fā)起的請求,從而成功地防止IP被封。一個有效的方法是使用IP模擬器來代理最大的爬蟲代理服務(wù)提供商的IP。代理的用法將在后面詳細(xì)解釋。
我們可以看到官網(wǎng)提供了這種代理方式,就是IP代理。IP代理只給你IP和端口號,你可以使用它。一般可以根據(jù)自己的需要設(shè)置有效期。
首先,代理提供商將為您提供一個ip接口,通過它您可以獲得ip和端口號。但是這些IP的有效期是3分鐘,所以我設(shè)置了一個IP池,每兩分鐘更新一次IP池,以確保這些IP每次使用都是有效的(當(dāng)然官網(wǎng)上說IP可用率大于99%)。
IP模擬器