事實(shí)上,我們?nèi)罩局械脑S多百度Pider都是被別人偽裝的。來解決這個(gè)問題。我們必須努力驗(yàn)證百度pider的真實(shí)性。本文詳細(xì)介紹了爬蟲的識(shí)別方法
當(dāng)我們根據(jù)網(wǎng)站日志分析搜索引擎蜘蛛捕獲的網(wǎng)頁記錄時(shí),實(shí)際上很多網(wǎng)站都有一些偽裝成百度pider的訪問者。這些數(shù)據(jù)將嚴(yán)重影響我們?cè)谌罩痉治龊蟮呐袛?/p>
為什么這些訪問者假裝是百度皮德爾來訪問我們的網(wǎng)站?最典型的是那些收集你的內(nèi)容的人。他們知道,許多工具可以看到哪些IP訪問網(wǎng)站太大。例如,今天IP訪問你的網(wǎng)站10000次是否正常?一定是不正常。但如果他是百度pdier呢?呵呵,這很正常
Mozilla/5.0(兼容;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(兼容;Baiduspider渲染/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(Linux;u;Android4.2.2;zhcn;)AppleWebKit/534.46(KHTML,likeGecko)版本/5.1MobileSafari/10600.6.3(兼容;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(iPhone;CPUiPhoneOS9_1likeMacOSX)AppleWebKit/601.1.46(KHTML,likeGecko)版本/9.0Mobile/13B143Safari/601.1(兼容;Baiduspiderrender/2.0;+http://www.baidu.com/search/spider.html)
以上包括百度的常規(guī)爬蟲和渲染爬蟲渲染。這兩種爬行動(dòng)物的區(qū)別特征用紅色標(biāo)記
這個(gè)問題可以通過DNS反向查找解決。不同平臺(tái)的驗(yàn)證方法不同。例如,linux/Windows/OS下的驗(yàn)證方法如下:
1。在Linux平臺(tái)上,可以使用hostip命令反轉(zhuǎn)IP,以確定抓取是否來自Baiduspider。Baiduspider的主機(jī)名在百度。Com或百度。JP格式命名,非百度。Com或百度。JP是假的
2。在windows或ibmos/2平臺(tái)上,可以使用nslookupip命令反轉(zhuǎn)IP,以確定抓取是否來自Baiduspider。打開命令處理器并輸入nslookupxxxxxx。xxx。XXX(IP地址)可以解析IP以確定它是否是從Baiduspider獲取的。Baiduspider的主機(jī)名用百度表示。Com或百度。JP格式命名,非百度。Com或百度。JP是假的
3。在MacOS平臺(tái)上,可以使用dig命令反轉(zhuǎn)IP地址,以確定抓取是否來自Baiduspider。打開命令處理器并輸入digxxx。xxx。XXX(IP地址)可以解析IP以確定它是否是從Baiduspider獲取的。Baiduspider的主機(jī)名用百度表示。Com或百度。JP格式命名,非百度。Com或百度。JP是假的。