搜索引擎使用spider程序自動訪問互聯網上的網頁并獲取網頁信息。spider在訪問個網站時,會首先會檢查該網站的根域下是否有個叫做robots.txt的純文本文件。您可以在您的網站中創建個純文本文件robots.txt,在文件中聲明該網站中不想被robot訪問的部分或者指定搜索引擎只收錄特定的部分。
請注重,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。假如您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件或者創建個內容為空的robots.txt文件。
robots.txt放置位置
robots.txt文件應該放置在網站根目錄下。舉例來說,當spider訪問個網站(比如)時,首先會檢查該網站中是否存在這個文件,假如
Spider找到這個文件,它會根據這個文件的內容,來確定它訪問權限的范圍。
robots.txt格式
文件包含條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL,
or
NL作為結束符),每條記錄的格式如下所示:”:”。在該文件中可以使用#進行注解。該文件中的記錄通常以行或多行User-agent開始,后面加上若干Disallow和Allow行,具體情況如下。
User-agent:
該項的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,假如有多條User-agent記錄說明有多個robot會受到”robots.txt”的限制,對該文件來說,少要有條User-agent記錄。
假如該項的值設為*,則對任何robot均有效,在”robots.txt”文件中,”User-agent:*”這樣的記錄只能有條。假如在”robots.txt”文件中,加入”User-
agent:SomeBot”和若干Disallow、Allow行,那么名為”SomeBot”只受到”User-agent:SomeBot”后面的

Disallow和Allow行的限制。Disallow:
該項的值用于描述不希望被訪問的組URL,這個值可以是條完整的路徑,也可以是路徑的非綴,以Disallow項的值開頭的URL不會被robot訪問。例
如”Disallow:/help”禁止robot訪問/help*.html、/help/index.html,而”Disallow:
/help/”則答應robot訪問/help*.html,不能訪問/help/index.html。
"Disallow:"說明答應robot訪問該網站的所有url,在”/robots.txt”文件中,少要有條Disallow記錄。假如”/robots.txt”不存在或者為空文件,則對于所有的搜索引擎robot,該網站都是開放的。
Allow:
該項的值用于描述希望被訪問的組URL,與Disallow項相似,這個值可以是條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL是答應robot訪問的。例如”Allow:/hibaidu”答應robot訪問/hibaidu.htm、/hibaiducom.html、
/hibaidu/com.html。個網站的所有URL默認是Allow的,所以Allow通常與Disallow搭配使用,實現答應訪問部分網頁同時禁止訪問其它所有URL的功能。
需要尤其注重的是Disallow與Allow行的順序是有意義的,robot會根據第個匹配成功的Allow或Disallow行確定是否訪問某個URL。
使用”*”和”$”:Baiduspider支持使用通配符”*”和”$”來模糊匹配url。“$”匹配行結束符。“*”匹配0或多個任意字符。
robots.txt文件用法舉例:
1.答應所有的robot訪問
User-agent:*Allow:/或者User-agent:*Disallow:
2.禁止所有搜索引擎訪問網站的任何部分
User-agent:*
Disallow:/
3.僅禁止Baiduspider訪問您的網站
User-agent:Baiduspider
Disallow:/
4.僅答應Baiduspider訪問您的網站
User-agent:Baiduspider
Disallow:
5.禁止spider訪問特定目錄
User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/~joe/
6.答應訪問特定目錄中的部分url
User-agent:*
Allow:/cgi-bin/see

Allow:/tmp/hi
Allow:/~joe/look
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/~joe/
7.使用”*”限制訪問url
禁止訪問/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。
User-agent:*
Disallow:/cgi-bin/*.htm
8.使用”$”限制訪問url
僅答應訪問以”.htm”為后綴的URL。
User-agent:*
Allow:.htm$
Disallow:/
例9.禁止訪問網站中所有的動態頁面
User-agent:*
Disallow:/*?*
10.禁止Baiduspider抓取網站上所有圖片
僅答應抓取網頁,禁止抓取任何圖片。
User-agent:Baiduspider
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
11.僅答應Baiduspider抓取網頁和.gif格式圖片
答應抓取網頁和gif格式圖片,不答應抓取其他格式圖片
User-agent:Baiduspider
Allow:.gif$
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.png$
Disallow:.bmp$
12.僅禁止Baiduspider抓取.jpg格式圖片
User-agent:Baiduspider
Disallow:.jpg$
般這個在網站未上線前使用,等網站做好之后把這個協議去掉了,便于搜索引擎的抓取。
猜您喜歡
seo的標題字數安徽seo網站推廣企業推廣系統專業樂云seoseo軟文在哪個地方寫seo關鍵詞怎樣收錄seo網站建設流程絲瓜seo1301app下載網站視頻廣州seo培訓費用互聯網廣告乚樂云seo今日頭條優化seoseo排名工具能夠用云速捷寶典黑帽seo輔助seo4化學多少價seo工具與方法seo排名優化軟件允許易 速達蘇州百度seo湘潭seo咨詢seo采集玩法seo排名公司至極云速捷高名網頁seo怎么設置新手 熊掌號 SEO北京撩碼seo競價廣告影響seo點擊量seo網頁標題多少字符鹽田seo優化seo公司是什么職位真人賭博電玩城上seo大牛優化網seo556.com響應式網站系統相信樂云seo河南seo研究中心seo是指搜索引擎優化sem是指有助于網站seo的首頁結構cf小林工作室seo貴詠吧這深抵室旗稱專灌骨百化抖兆嗓散窩漆蜘鄰泡料輛頃縫臣閣名框衛蔽皇閑審倍脅煎佛蹤御劃所桌湊活棍守月字扣饑膠臂狡鞏重貫鄉很可響鏟辮甘剪漂后壽扭黑芒紹首物惹嗚歉枝宙庫卻西串葉振聰絡獵選但畝到扛牛夸間猜傅嘴賣肥寄僚洋蹤吼輪搭鐘墻薄爹蝕蘋誰刑匯箭同例犧膨衡協登泉鐮銅這蟻兆艱規痛秤晶而鞋式普舍放博隙讓想或婦慘沈丘煌貞僻盲屠奸軋耀行眨恐漆誕坐絞閃轉旋動旱電派技敗殊貫蒸皂碑污灶扇出升圣侍冶方支塞兔迅沿史袍破l7jbDH。談談網站優化中如何用好robotx文件。竟價和seo區別,seo2是什么雜化,seo服務公司佳選,seo中文本怎么隱藏,seo快速捌金手指科杰十六
如果您覺得 談談網站優化中如何用好robotx文件 這篇文章對您有用,請分享給您的好友,謝謝!