服務(wù)器日志分析可以對(duì)爬網(wǎng)優(yōu)先級(jí)提供無(wú)與倫比的見(jiàn)解,使搜索引擎優(yōu)化團(tuán)隊(duì)能夠微調(diào)爬網(wǎng)預(yù)算管理以獲得更好的排名。
大多數(shù)網(wǎng)站運(yùn)營(yíng)商都不知道web服務(wù)器日志的重要性。他們不記錄,更不用說(shuō)分析他們網(wǎng)站的服務(wù)器日志了。尤其是大型品牌,它們無(wú)法利用服務(wù)器日志分析,無(wú)法挽回地丟失未記錄的服務(wù)器日志數(shù)據(jù)。
選擇接受服務(wù)器日志分析作為其持續(xù)SEO工作的一部分的組織通常在谷歌搜索中表現(xiàn)出色。如果您的網(wǎng)站包含100000頁(yè)或更多頁(yè)面,并且您希望了解服務(wù)器日志如何以及為什么會(huì)帶來(lái)巨大的增長(zhǎng)機(jī)會(huì),請(qǐng)繼續(xù)閱讀。
為什么服務(wù)器日志很重要每次機(jī)器人請(qǐng)求web服務(wù)器上托管的URL時(shí),都會(huì)自動(dòng)創(chuàng)建一個(gè)日志記錄條目,以反映過(guò)程中交換的信息。當(dāng)覆蓋較長(zhǎng)的時(shí)間段時(shí),服務(wù)器日志將代表接收到的請(qǐng)求和返回的響應(yīng)的歷史記錄。
服務(wù)器日志文件中保留的信息通常包括客戶(hù)端IP地址、請(qǐng)求日期和時(shí)間、請(qǐng)求的頁(yè)面URL、HTTP響應(yīng)代碼、服務(wù)的字節(jié)數(shù)以及用戶(hù)代理和引用者。
雖然服務(wù)器日志是在每個(gè)請(qǐng)求網(wǎng)頁(yè)的實(shí)例中創(chuàng)建的,包括用戶(hù)瀏覽器請(qǐng)求,但搜索引擎優(yōu)化只關(guān)注bot服務(wù)器日志數(shù)據(jù)的使用。這與涉及GDPR/CCPA/DSGVO等數(shù)據(jù)保護(hù)框架的法律考慮有關(guān)。由于沒(méi)有用戶(hù)數(shù)據(jù)用于SEO目的,原始的匿名web服務(wù)器日志分析仍然不受其他潛在適用法律法規(guī)的影響。
值得一提的是,在某種程度上,基于谷歌搜索控制臺(tái)爬網(wǎng)統(tǒng)計(jì)數(shù)據(jù),類(lèi)似的見(jiàn)解是可能的。然而,這些樣本的數(shù)量和時(shí)間跨度有限。與谷歌搜索控制臺(tái)(GoogleSearchConsole)不同的是,它的數(shù)據(jù)只反映了過(guò)去幾個(gè)月的數(shù)據(jù),而只有服務(wù)器日志文件才能提供清晰、宏觀的SEO長(zhǎng)期趨勢(shì)概述。
服務(wù)器日志中有價(jià)值的數(shù)據(jù)每次bot請(qǐng)求服務(wù)器上托管的頁(yè)面時(shí),都會(huì)創(chuàng)建一個(gè)日志實(shí)例,記錄多個(gè)數(shù)據(jù)點(diǎn),包括:
請(qǐng)求客戶(hù)端的IP地址。
請(qǐng)求的準(zhǔn)確時(shí)間,通常基于服務(wù)器的內(nèi)部時(shí)鐘。
請(qǐng)求的URL。
HTTP用于請(qǐng)求。
返回的響應(yīng)狀態(tài)代碼(例如,200、301、404、500或其他)。
來(lái)自請(qǐng)求實(shí)體的用戶(hù)代理字符串(例如,搜索引擎bot名稱(chēng),如Googlebot/2.1)。
典型的服務(wù)器日志記錄示例可能如下所示:
150.174.193.196--[15/Dec/2021:11:25:14+0100]"GET/index.htmlHTTP/1.0"2001050"-""Googlebot/2.1(+http://www.google.com/bot.html)""www.example.ai"
Inthisexample:
150.174.193.196istheIPoftherequestingentity.
[15/Dec/2021:11:25:14+0100]isthetimezoneaswellasthetimeoftherequest.
"GET/index.htmlHTTP/1.0"istheHTTPmethodused(GET),thefilerequested(index.html)andtheHTTPprotocolversionused.
200istheserverHTTPstatuscoderesponsereturned.
1050isthebytesizeoftheserverresponse.
"Googlebot/2.1(+http://www.google.com/bot.html)"istheuseragentoftherequestingentity.
"www.example.ai"isthereferringURL.
如何使用服務(wù)器日志從SEO的角度來(lái)看,web服務(wù)器日志提供無(wú)與倫比的洞察力有三個(gè)主要原因:
協(xié)助從合法機(jī)器人(如Googlebot、Bingbot或YandexBot)產(chǎn)生的理想搜索引擎機(jī)器人流量中過(guò)濾出沒(méi)有SEO意義的不良機(jī)器人流量。
為爬網(wǎng)優(yōu)先級(jí)提供SEO見(jiàn)解,從而使SEO團(tuán)隊(duì)有機(jī)會(huì)主動(dòng)調(diào)整和微調(diào)爬網(wǎng)預(yù)算管理。
允許監(jiān)視并提供發(fā)送到搜索引擎的服務(wù)器響應(yīng)的跟蹤記錄。
假冒的搜索引擎機(jī)器人可能令人討厭,但它們很少影響網(wǎng)站。有許多專(zhuān)門(mén)的服務(wù)提供商,如Cloudflare和AWSShield,可以幫助管理不需要的bot流量。在分析web服務(wù)器日志的過(guò)程中,假冒的搜索引擎機(jī)器人往往扮演次要角色。
為了準(zhǔn)確地衡量除了主要搜索引擎之外,網(wǎng)站的哪些部分正在被優(yōu)先排序,在執(zhí)行日志分析時(shí),必須對(duì)機(jī)器人程序流量進(jìn)行過(guò)濾。根據(jù)目標(biāo)市場(chǎng)的不同,重點(diǎn)可能是谷歌、蘋(píng)果、必應(yīng)、Yandex等搜索引擎機(jī)器人。
特別是對(duì)于內(nèi)容新鮮度至關(guān)重要的網(wǎng)站,這些網(wǎng)站被重新爬網(wǎng)的頻率會(huì)嚴(yán)重影響它們對(duì)用戶(hù)的有用性。換句話(huà)說(shuō),如果內(nèi)容變化得不夠快,用戶(hù)體驗(yàn)信號(hào)和有機(jī)搜索排名就不可能充分發(fā)揮其潛力。
帶有三個(gè)搜索引擎徽標(biāo)的圖形,代表各自的網(wǎng)絡(luò)爬蟲(chóng)。只有通過(guò)服務(wù)器日志過(guò)濾,才有可能準(zhǔn)確地衡量相關(guān)的搜索引擎bot流量。
雖然谷歌傾向于抓取所有可用信息,并定期重新抓取已知的URL模式,但其抓取資源并非無(wú)限。這就是為什么,對(duì)于由數(shù)十萬(wàn)個(gè)登錄頁(yè)組成的大型網(wǎng)站,重新爬網(wǎng)周期取決于谷歌的爬網(wǎng)優(yōu)先級(jí)分配算法。
這種分配可以通過(guò)可靠的啟動(dòng)時(shí)間、高度響應(yīng)的web服務(wù)得到積極的刺激,這些服務(wù)專(zhuān)門(mén)針對(duì)持續(xù)體驗(yàn)進(jìn)行了優(yōu)化。這些步驟本身就有助于SEO。但是,只有通過(guò)分析覆蓋較長(zhǎng)時(shí)間段的完整服務(wù)器日志,才有可能確定所有可爬網(wǎng)登錄頁(yè)的總?cè)萘恐g的重疊程度,通常是較小數(shù)量的相關(guān)登錄頁(yè),優(yōu)化和可索引的SEO登錄頁(yè)在站點(diǎn)地圖中有代表性,谷歌在爬行、索引和排名方面經(jīng)常優(yōu)先考慮。
這種日志分析是技術(shù)SEO審計(jì)的一個(gè)組成部分,也是發(fā)現(xiàn)預(yù)算浪費(fèi)程度的唯一方法。無(wú)論是可爬行過(guò)濾、占位符還是精簡(jiǎn)內(nèi)容頁(yè)、開(kāi)放的暫存服務(wù)器還是網(wǎng)站的其他過(guò)時(shí)部分,都會(huì)繼續(xù)影響爬行,最終影響排名。在某些情況下,例如有計(jì)劃的遷移,通過(guò)SEO審計(jì)(包括服務(wù)器日志分析)獲得的見(jiàn)解通常決定遷移的成功與失敗。
此外,日志分析為大型網(wǎng)站提供了重要的SEO見(jiàn)解。它可以回答谷歌需要多長(zhǎng)時(shí)間重新掃描整個(gè)網(wǎng)站。如果這個(gè)答案恰好是決定性的長(zhǎng)-數(shù)月或更長(zhǎng)-行動(dòng)可能是有保證的,以確保索引搜索引擎優(yōu)化登錄頁(yè)被抓取。否則,網(wǎng)站的任何SEO改進(jìn)都有可能在發(fā)布后數(shù)月內(nèi)被搜索引擎忽視,這反過(guò)來(lái)又會(huì)導(dǎo)致排名不佳。
一個(gè)由三部分組成的維恩圖,顯示了谷歌爬行、XML站點(diǎn)地圖和SEO登錄頁(yè)之間的重疊可索引SEO登錄頁(yè)和Google定期爬行頁(yè)面之間的高度重疊是一個(gè)積極的SEOKPI。
服務(wù)器響應(yīng)對(duì)于谷歌搜索的可見(jiàn)性至關(guān)重要。雖然谷歌搜索控制臺(tái)確實(shí)提供了對(duì)最近服務(wù)器響應(yīng)的重要一瞥,但谷歌搜索控制臺(tái)向網(wǎng)站運(yùn)營(yíng)商提供的任何數(shù)據(jù)都必須被視為具有代表性但樣本有限。雖然這對(duì)于識(shí)別異常問(wèn)題很有用,但通過(guò)服務(wù)器日志分析,可以分析和識(shí)別所有HTTP響應(yīng),包括任何可能危及排名的定量相關(guān)非200OK響應(yīng)。如果性能問(wèn)題(例如,503服務(wù)不可用的計(jì)劃停機(jī)時(shí)間)過(guò)多,則可能的替代響應(yīng)可能表示性能問(wèn)題。
顯示503和200狀態(tài)代碼的抽象圖形過(guò)多的非200OK服務(wù)器響應(yīng)會(huì)對(duì)有機(jī)搜索可見(jiàn)性產(chǎn)生負(fù)面影響。
從哪里開(kāi)始盡管服務(wù)器日志分析具有潛力,但大多數(shù)網(wǎng)站運(yùn)營(yíng)商并未利用所提供的機(jī)會(huì)。服務(wù)器日志要么根本沒(méi)有記錄,要么定期被覆蓋或不完整。絕大多數(shù)網(wǎng)站在任何有意義的時(shí)間段內(nèi)都不會(huì)保留服務(wù)器日志數(shù)據(jù)。這對(duì)于任何愿意收集和利用服務(wù)器日志文件進(jìn)行搜索引擎優(yōu)化的運(yùn)營(yíng)商來(lái)說(shuō)都是一個(gè)好消息。
在計(jì)劃服務(wù)器日志數(shù)據(jù)收集時(shí),值得注意的是,為了使數(shù)據(jù)可用,服務(wù)器日志文件中至少必須保留哪些數(shù)據(jù)字段。以下列表可視為指南:
請(qǐng)求實(shí)體的遠(yuǎn)程IP地址。
請(qǐng)求實(shí)體的用戶(hù)代理字符串。
請(qǐng)求方案(例如,是HTTP或https或wss或其他內(nèi)容的HTTP請(qǐng)求)。
請(qǐng)求主機(jī)名(例如,HTTP請(qǐng)求用于哪個(gè)子域或域)。
請(qǐng)求路徑,通常是服務(wù)器上作為相對(duì)URL的文件路徑。
請(qǐng)求參數(shù),可以是請(qǐng)求路徑的一部分。
請(qǐng)求時(shí)間,包括日期、時(shí)間和時(shí)區(qū)。
請(qǐng)求方法。
響應(yīng)http狀態(tài)代碼。
響應(yīng)時(shí)間。
如果請(qǐng)求路徑是相對(duì)URL,則服務(wù)器日志文件中經(jīng)常忽略的字段是記錄請(qǐng)求的主機(jī)名和方案。這就是為什么與it部門(mén)確認(rèn)請(qǐng)求路徑是否為相對(duì)URL非常重要的原因,以便主機(jī)名和方案也記錄在服務(wù)器日志文件中。一個(gè)簡(jiǎn)單的解決方法是將整個(gè)請(qǐng)求URL記錄為一個(gè)字段,其中包括一個(gè)字符串中的方案、主機(jī)名、路徑和參數(shù)。
收集服務(wù)器日志文件時(shí),還必須包含來(lái)自CDN和網(wǎng)站可能使用的其他第三方服務(wù)的日志。請(qǐng)向這些第三方服務(wù)咨詢(xún)?nèi)绾味ㄆ谔崛『捅4嫒罩疚募?
克服服務(wù)器日志分析的障礙通常,為了應(yīng)對(duì)保留服務(wù)器日志數(shù)據(jù)的迫切需要,會(huì)提出兩個(gè)主要障礙:成本和法律問(wèn)題。雖然這兩個(gè)因素最終都取決于具體情況,如預(yù)算和法律管轄權(quán),但兩者都不必構(gòu)成嚴(yán)重的障礙。
云存儲(chǔ)可能是一種長(zhǎng)期選擇,物理硬件存儲(chǔ)也可能會(huì)限制成本。由于大約20TB硬盤(pán)的零售價(jià)格低于600美元,硬件成本可以忽略不計(jì)。考慮到存儲(chǔ)硬件的價(jià)格多年來(lái)一直在下降,最終存儲(chǔ)成本不太可能對(duì)服務(wù)器日志記錄構(gòu)成嚴(yán)重挑戰(zhàn)。
此外,日志分析軟件或提供服務(wù)的SEO審計(jì)提供商將產(chǎn)生相關(guān)成本。雖然這些成本必須考慮到預(yù)算中,但考慮到服務(wù)器日志分析提供的優(yōu)勢(shì),再次證明這些成本是合理的。
雖然本文旨在概述SEO服務(wù)器日志分析的固有好處,但不應(yīng)將其視為法律建議。此類(lèi)法律意見(jiàn)只能由符合法律框架和相關(guān)司法管轄權(quán)的合格律師提供。GDPR/CCPA/DSGVO等一系列法律法規(guī)可適用于此。尤其是在歐盟運(yùn)營(yíng)時(shí),隱私是一個(gè)主要問(wèn)題。但是,對(duì)于SEO的服務(wù)器日志分析,任何與用戶(hù)相關(guān)的數(shù)據(jù)都是無(wú)關(guān)的。任何無(wú)法根據(jù)IP地址進(jìn)行最終驗(yàn)證的記錄都將被忽略。
關(guān)于隱私問(wèn)題,不得使用任何未經(jīng)驗(yàn)證且不是已確認(rèn)的搜索引擎bot的日志數(shù)據(jù),而是可以根據(jù)相關(guān)法律建議在規(guī)定的時(shí)間段后刪除或匿名。一些最大的網(wǎng)站運(yùn)營(yíng)商正在定期采用這種久經(jīng)考驗(yàn)的方法。
什么時(shí)候開(kāi)始剩下的主要問(wèn)題是何時(shí)開(kāi)始收集服務(wù)器日志數(shù)據(jù)。答案是現(xiàn)在!
服務(wù)器日志數(shù)據(jù)只能以有意義的方式應(yīng)用,并在足夠大的容量下提供可操作的建議。服務(wù)器日志對(duì)于搜索引擎優(yōu)化審計(jì)的有用性通常在6到36個(gè)月之間,這取決于網(wǎng)站的大小及其爬網(wǎng)優(yōu)先級(jí)信號(hào)。
需要注意的是,未記錄的服務(wù)器日志不能在以后的階段獲取。很有可能,今天開(kāi)始的任何保留和保存服務(wù)器日志的努力最早將在明年取得成果。因此,收集服務(wù)器日志數(shù)據(jù)必須在盡可能早的時(shí)間開(kāi)始,并在網(wǎng)站運(yùn)行期間不間斷地繼續(xù)進(jìn)行,以便在有機(jī)搜索中表現(xiàn)良好。