另一方面,我們網站的內容屬于個人私人文件,不想暴露在搜索引擎中。robot.txt解決這兩個問題。
一、什么是robots.txt?
robots.txt它是網站和搜索引擎協議的純文本文件。當搜索引擎蜘蛛訪問網站時,它首先爬行檢查網站的根目錄是否存在robots.txt,
如果存在,請根據文件內容確定訪問范圍。如果沒有,蜘蛛會沿著鏈接抓取。robots.txt放在項目根目錄下。
二、robots.txt基本語法:
1)允許所有搜索引擎訪問網站的所有部分
robots.txt寫法如下:
User-agent:*
Disallow:
或者
User-agent:*
Allow:/
注:1.第一個英語應該大寫,冒號是英語狀態,冒號后面有一個空間,這些點不能寫錯。
2)禁止所有搜索引擎訪問網站的所有部分
robots.txt寫法如下:
User-agent:*
Disallow:/
3)只需禁止蜘蛛訪問某個目錄,如禁止蜘蛛訪問某個目錄admin、css、images索引等目錄
robots.txt寫法如下:
User-agent:*
Disallow:/css/
Disallow:/admin/
Disallow:/images/
注:路徑后面有斜杠和沒有斜杠的區別:比如Disallow:/images/禁止使用斜杠images整個文件夾,Disallow:/images沒有斜杠意味著任何路徑都有/images所有關鍵詞都會被屏蔽
4)屏蔽文件夾/templets,但其中一個文件的寫其中一個文件的寫作方法:/templets/main
robots.txt寫法如下:
User-agent:*
Disallow:/templets
Allow:/main
5)禁止訪問/html/目錄下的所有.php”為后綴的URL(含子目錄)
robots.txt寫法如下:
User-agent:*
Disallow:/html/*.php
6)只允許訪問某個目錄下的后綴文件,使用$”
robots.txt寫法如下:
User-agent:*
Allow:.html$
Disallow:/
7)禁止索引網站中所有動態頁面
例如,這里限制的域名是?index.php?id=1
robots.txt寫法如下:
User-agent:*
Disallow:/*?*
8),禁止搜索引擎在我們的網站上捕所有圖片(如果您的網站使用其他后綴的圖片名稱,也可以直接添加到這里)
有時候,為了節省服務器資源,我們需要禁止各種搜索引擎在我們的網站上索引圖片除了使用Disallow:/images除了直接屏蔽文件夾外,還可以直接屏蔽圖片后綴名。
robots.txt寫法如下:
User-agent:*
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
三、寫robots.txt注意:
1)第一個英語要大寫,冒號在英語狀態下,冒號后面有一個空間,一定不能寫錯。
2.)、斜杠:/代表整個網站
3)如果/后面有空間,則屏蔽整個網站
4)不禁止正常內容
5)生效時間為幾天至兩個月
四、robots.txt文件對網站優化有什么作用?
1.快速增加網站權重和訪問量;
2.停止某些文件被搜索引擎索引,可以節省服務器帶寬和網站訪問速度;
3.為搜索引擎提供一個簡單明了的索引環境
五、應用哪些網站的目錄需求?robots.txt停止抓取文件?
1)圖像目錄
圖像是網站的主要組成部分。現在建站越來越方便了,很多cms如果你真的能打字,你就會建立一個網站。正是因為如此方便,許多同質化模板網站在互聯網上被重復使用。這樣的網站搜索引擎一定不喜歡。即使你的網站被輸入,你的角色也很差。如果你必須使用這個網站,主張你可能在robots.txt屏蔽文件,一般網站圖像目錄如下:imags或許img;
2)網站模板目錄
cms強度和敏感性也導致了許多同質化的網站模板的呈現和無序使用。高度重復的模板在搜索引擎中形成了冗余,模板文件通常與生成文件高度相似,同樣容易形成相同的內容。對搜索引擎非常不友好,嚴重的直接被搜索引擎進入冷宮,不能翻身,很多cms有獨立的模板存儲目錄,因此,可能會屏蔽模板目錄。一般模板目錄的文件目錄為:templets
3)、css、js目錄的屏蔽
css目錄文件在抓取搜索引擎時沒有用途,也不能提供有價值的信息。因此,強烈提倡robots.txt屏蔽文件,提高搜索引擎的索引質量。為搜索引擎提供一個簡單明了的索引環境,更容易提升網站的友好性。css款式目錄一般為:css或許style,
js文件無法在搜索引擎中識別,這里只提倡屏蔽,這也有一個優點:為搜索引擎提供一個簡單明了的索引環境;
4)屏蔽雙頁內容
這里拿dedecms來舉例吧。dedecms靜態和動態可以使用url訪問同一內容。如果您生成全站靜態,則需要屏蔽動態地址url連接。
這里有兩個優點:
?①、靜態搜索引擎url比動態的url輸入更友好、更簡單;
②、避免靜態和動態url可以訪問同一篇文章,被搜索引擎判定為重復內容。這對搜索引擎的友誼是有益和無害的。
5)模板緩存目錄
許多cms程序都有緩存目錄。我不認為我們理解這個緩存目錄的優點。它可以非常有用地提高網站的訪問速度,減少網站帶寬,這對用戶體驗也很好。然而,這樣的緩存目錄也有一定的缺陷,也就是說,它會讓搜索引擎重復抓取,網站內容重復也是一個大犧牲,對網站沒有傷害。許多運用cms建站的兄弟沒有注意到,需要注意。
6)被刪除的目錄
死鏈太多,對于搜索引擎優化,是致命的。不能不引起網站管理員的高度關注,。在網站的發展過程中,目錄的刪除和調整是不可避免的。如果您的網站目錄不存在,則有必要進行此目錄robots屏蔽,回到正確的404錯誤頁面。
?????這里有一個有爭議的問題,關于網站背景處理目錄是否需要屏蔽,事實上,這是可有可無的。如果你的網站運營情況下,如果你的網站運營計劃很小,即使網站目錄出現了robots.txt文件中沒有太多問題,我見過很多網站這樣設置;但是,如果你的網站運營規劃大,競爭對手太多,強烈提倡不要呈現網站后臺管理目錄的信息,以免被別有用心的人使用,危害你的利益;引擎越來越智能,網站的管理目錄仍然可以很好地識別和放棄索引。另外,我們在做網站背景時,我們也可以在頁面元標簽中添加:屏蔽和捕獲搜索引擎。