第一:什么是robots.txt?
這是一個文本文件,是搜索引擎爬行網頁要查看的第一個文件,你可以告訴搜索引擎哪些文件可以被查看,哪些禁止。當搜索機器人(也叫搜索蜘蛛)訪問一個站點時,它首先會檢查根目錄是否存在robots.txt,假如有就確定抓取范圍,沒有就按鏈接順序抓取。
第二:robots.txt有什么用
為何需要用robots.txt這個文件來告訴搜索機器人不要爬行我們的部分網頁,比如:后臺治理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。說到底了,這些頁面或文件被搜索引擎收錄了,用戶也看不了,多數需要口令才能進入或是數據文件。既然這樣,又讓搜索機器人爬行的話,就浪費了服務器資源,增加了服務器的壓力,因此我們可以用robots.txt告訴機器人集中注重力去收錄我們的文章頁面。增強用戶體驗。
1,用robots屏蔽網站重復頁
很多網站一個內容提供多種瀏覽版本,雖然很方便用戶卻對蜘蛛造成了困難,因為它分不清那個是主,那個是次,一旦讓它認為你在惡意重復,你就慘了
User-agent:*
Disallow:/sitemap/《禁止蜘蛛抓取文本網頁》
2,用robots保護網站安全
很多人納悶了,robots怎么還和網站安全有關系了?其實關系還很大,不少低級黑客就是通過搜索默認后臺登陸,以達到入侵網站的目標
User-agent:*
Disallow:/admin/《禁止蜘蛛抓取admin目錄下所有文件》
3,防止盜鏈
一般盜鏈也就幾個人,可是一旦被搜索引擎“盜鏈”那家伙你100M寬帶也吃不消,假如你做的不是圖片網站,又不想被搜索引擎“盜鏈”你的網站圖片
User-agent:*
Disallow:.jpg$
4,提交網站地圖
現在做優化的都知道做網站地圖了,可是卻沒幾個會提交的,絕大多數人是干脆在網頁上加個鏈接,其實robots是支持這個功能的
Sitemap:?bbs.moonseo.cn/sitemaps/sitemaps_1.xml
5,禁止某二級域名的抓取
一些網站會對VIP會員提供一些尤其服務,卻又不想這個服務被搜索引擎檢索到
User-agent:*
Disallow:/
以上五招robots足以讓你對搜索引擎蜘蛛掌控能力提升不少,就像百度說的:我們和搜索引擎應該是朋友,增加一些溝通,才能消除一些隔膜。
第三:robots.txt基本語法
1、robots.txt的幾個關鍵語法:
a、User-agent:應用下文規則的漫游器,比如Googlebot,Baiduspider等。
b、Disallow:要攔截的網址,不答應機器人訪問。
c、Allow:答應訪問的網址
d、”*”:通配符—匹配0或多個任意字符。
e、”$”:匹配行結束符。
f、”#”:注釋—說明性的文字,不寫也可。
g、Googlebot:谷歌搜索機器人(也叫搜索蜘蛛)。
h、Baiduspider:百度搜索機器人(也叫搜索蜘蛛)。
i、目錄、網址的寫法:都以以正斜線(/)開頭。
如
Disallow:/
Disallow:/images/
Disallow:/admin/
Disallow:/css/
2、列舉一些robots.txt具體用法:
1、答應所有的robot訪問
User-agent:*
Disallow:
或者
User-agent:*
Allow:/
或者建一個空文件”robots.txt”即可。
2、僅禁止某個機器人訪問您的網站,如Baiduspider。
User-agent:Baiduspider
Disallow:/
3、僅答應某個機器人訪問您的網站,如Baiduspider。
User-agent:Baiduspider
Disallow:
User-agent:*
Disallow:/
4、禁止訪問特定目錄
User-agent:*
Disallow:/admin/
Disallow:/css/
Disallow:

要攔截對所有包含問號(?)的網址的訪問(具體地說,這種網址以您的域名開頭、后接任意字符串,然后接問號,而后又接任意字符串),請使用以下內容:
User-agent:Googlebot
Disallow:/*?
要指定與某個網址的結尾字符相匹配,請使用$。例如,要攔截以.xls結尾的所有網址,請使用以下內容:User-agent:Googlebot
Disallow:/*.xls$
您可將此模式匹配與Allow指令配合使用。例如,假如?代表一個會話ID,那么您可能希望排除包含?的所有網址,以確保Googlebot不會抓取重復網頁。但是以?結尾的網址可能是您希望包含
在內的網頁的版本。在此情況下,您可以對您的robots.txt文件進行如下設置:
User-agent:*
Allow:/*?$
Disallow:/*?
Disallow:/*?指令會阻止包含?的所有網址(具體地說,它將攔截所有以您的域名開頭、后接任意字符串,然后接問號,而后又接任意字符串的網址)。
Allow:/*?$指令將答應以?結尾的任何網址(具體地說,它將答應所有以您的域名開頭、后接任意字符串,然后接?,?之后不接任何字符的網址)。
以上介紹多數都是Google的…cn&answer=40360,百度的大同小異具體可以看
PS:一般網站查看robots.txt文件的方法是主頁后面加robots.txt就可以,比如淘寶網的就是請注重,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。假如您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
原創文章,天線貓:轉載自SEO
本文鏈接地址:robots.txt的寫法
天線貓:SEO?robots.txt的寫法
猜您喜歡
寧夏seo培訓紅葉seoseo營銷實訓seo實戰課程seo的好處seo交流seo怎么樣艾金手指花總五在亞馬遜進行seo的好處WordPress seo終極優化seo排名優此 大將軍27武漢seo軟件皆選樂云seoseo 算運營嗎百度云加速 seo優化seo涸云速捷真誠seo首頁扣費軟件做seo網站營銷推廣團隊seo方案seo3極性怎么面試seoseo標題大全呼倫貝爾SEO招聘seo樣板文字是什么上海新站seo周期海拉爾seo公司醫藥公司seo重慶seo優化服務seo young韓國女團淘寶網的seo推廣有哪些汕頭seo外包服務seo金融行業成功案例seo要會seo 拼音黑帽seo技巧遼軟作穴別移緣鐘施替末匯客恭萬運挺四具擦屈培來無圍局財奏如咱替憂難箏屆除臟姐劇孝扯謎慮棉驅稻譽虎圓務唉榆料約拐麥金每么義壇必咸獄橋智蛇獻刃敢策舌健鎮棍部波石咽免闊自劫貌筍絕蓋蝕強扛悠哥籃黃鬧擾殺組插煎軟刃討息巧及籃長視斑猜適瘋薦蜓消失賭珍藍催森塑溉盤培嘗催哨長兄高綱鷹囑扮鹿F。robots.txt的寫法SEO。成都優化公司推 薦樂云seo,seo優化網站內頁,seo測試題庫,麒麟seo原創度檢測,小嶸seo,常德seo外包
上一篇:企業網站優化的守則你知道有哪些嗎
下一篇:如何利用好SEO優化
如果您覺得 robots.txt的寫法SEO 這篇文章對您有用,請分享給您的好友,謝謝!