通常,網(wǎng)站管理員會(huì)抱怨蜘蛛以304狀態(tài)獲取返回代碼,爬行次數(shù)越來越少。搜索引擎將盡最大努力提高檢索調(diào)用率、準(zhǔn)確性和新鮮度,以滿足自己的用戶體驗(yàn),這將導(dǎo)致搜索引擎不得不專注于具有高質(zhì)量?jī)?nèi)容源的網(wǎng)站。只有這樣,搜索結(jié)果的質(zhì)量才能更符合搜索者的體驗(yàn)
因此,我們認(rèn)為搜索引擎爬蟲更喜歡頻繁更新內(nèi)容源的網(wǎng)站。通過對(duì)在特定時(shí)間內(nèi)返回到網(wǎng)站的狀態(tài)代碼進(jìn)行爬網(wǎng),可以調(diào)整網(wǎng)站的爬網(wǎng)頻率。如果站點(diǎn)在一段時(shí)間內(nèi)處于304狀態(tài),引擎爬蟲可能會(huì)減少其對(duì)站點(diǎn)的爬網(wǎng)次數(shù)。相反,如果網(wǎng)站變化很快,每個(gè)爬蟲都可以得到一個(gè)新版本,爬蟲的返回率會(huì)隨著時(shí)間的推移而增加
無論是少還是304,這都是現(xiàn)象,而不是問題的原因。我們能把網(wǎng)站的流量增加200嗎?相反,我們應(yīng)該考慮生產(chǎn)304的原因。變更對(duì)網(wǎng)站目標(biāo)有何影響?我們不能忽視一般目的。標(biāo)簽強(qiáng)調(diào)了過程的細(xì)節(jié),并解決了304/200
304的狀態(tài)是如何形成的
為了提高網(wǎng)站的訪問速度,服務(wù)器為一些以前訪問過的頁(yè)面建立了緩存機(jī)制。當(dāng)客戶端在此處請(qǐng)求這些頁(yè)面時(shí),服務(wù)器將根據(jù)緩存的內(nèi)容判斷這些頁(yè)面是否相同。如果頁(yè)面相同,它將直接返回到304。此時(shí),客戶端調(diào)用緩存的內(nèi)容,而不進(jìn)行第二次調(diào)用。下載時(shí),可以說304在一定程度上起到了減少服務(wù)器帶寬和提高爬行器爬行效率的作用
304為什么會(huì)生成狀態(tài)碼
頁(yè)面更新周期長(zhǎng)或無更新
2。純靜態(tài)頁(yè)面或強(qiáng)制靜態(tài)HTML生成
304狀態(tài)處理方法
1。首先細(xì)分生成的304頁(yè)。什么樣的頁(yè)面返回304?如果這些頁(yè)面返回304
2。這些頁(yè)面是如何生成的?是否有更新機(jī)制?更新機(jī)制是否與蜘蛛爬行網(wǎng)站的頻率一致
3。頁(yè)面更新區(qū)域的位置是否合理?是否位于頁(yè)面主要內(nèi)容的托管區(qū)
4、304狀態(tài)碼過多可能導(dǎo)致以下問題:
停止網(wǎng)站快照
減少收集量
減輕重量
如何減少304返回碼
首先,內(nèi)容更新要迎合百度蜘蛛,分析日志,記錄蜘蛛訪問的時(shí)間,大致得到蜘蛛訪問的頻率。然后,根據(jù)以下內(nèi)容更新文章:原創(chuàng)+復(fù)制,而不是純粹的收藏。復(fù)制還需要新的優(yōu)質(zhì)資源,以便爬行器獲取,這將返回200多個(gè)普通代碼;其次,嘗試添加一個(gè)交互式部分?,F(xiàn)在大型網(wǎng)站基本上都做到了這一點(diǎn),比如評(píng)論、消息等等。大型網(wǎng)站的更新可能變化不大,但通過這些交互,用戶會(huì)發(fā)送一些內(nèi)容,網(wǎng)站會(huì)有很多新東西。