2、常用抓取返回碼示意
簡單介紹幾種百度支持的返回碼:
1)很常見的404代表“NOTFOUND”,認為網頁已經失效,通常將在庫中刪除,同時短期內假如spider再次發現這條url也不會抓取;
2)503代表“ServiceUnavailable”,認為網頁臨時不可訪問,通常網站臨時關閉,帶寬有限等會產生這種情況。對于網頁返回503狀態碼,百度spider不會把這條url直接刪除,同時短期內將會反復訪問幾次,假如網頁已恢復,則正常抓??;假如繼續返回503,那么這條url仍會被認為是失效鏈接,從庫中刪除。
3)403代表“Forbidden”,認為網頁目前禁止訪問。假如是新url,spider暫時不抓取,短期內同樣會反復訪問幾次;假如是已收錄url,不會直接刪除,短期內同樣反復訪問幾次。假如網頁正常訪問,則正常抓取;假如仍然禁止訪問,那么這條url也會被認為是失效鏈接,從庫中刪除。
4)301代表是“MovedPermanently”,認為網頁重定向至新url。當碰到站點遷移、域名更換、站點改版的情況時,我們推薦使用301返回碼,同時使用站長平臺網站改版工具,以減少改版對網站流量造成的損失。

3、多種url重定向的識別
互聯網中一部分網頁因為各種各樣的原因存在url重定向狀態,為了對這部分資源正常抓取,就要求spider對url重定向進行識別判定,同時防止作弊行為。重定向可分為三類:30x重定向、metarefresh重定向和js重定向。另外,百度也支持Canonical標簽,在效果上可以認為也是一種間接的重定向。
4、抓取優先級調配
由于互聯網資源規模的巨大以及迅速的變化,對于搜索引擎來說全部抓取到并合理的更新保持一致性幾乎是不可能的事情,因此這就要求抓取系統設計一套合理的抓取優先級調配策略。主要包括:深度優先遍歷策略、寬度優先遍歷策略、pr優先策略、反鏈策略、社會化分享指導策略等等。每個策略各有優劣,在實際情況中往往是多種策略結合使用以達到很優的抓取效果。
5、重復url的過濾
spider在抓取過程中需要判定一個頁面是否已經抓取過了,假如還沒有抓取再進行抓取網頁的行為并放在已抓取網址集合中。判定是否已經抓取其中涉及到很核心的是快速查找并對比,同時涉及到url歸一化識別,例如一個url中包含大量無效參數而實際是同一個頁面,這將視為同一個url來對待。
6、暗網數據的獲取
互聯網中存在著大量的搜索引擎暫時無法抓取到的數據,被稱為暗網數據。一方面,很多網站的大量數據是存在于網絡數據庫中,spider難以采用抓取網頁的方式獲得完整內容;另一方面,由于網絡環境、網站本身不符合規范、孤島等等問題,也會造成搜索引擎無法抓取。目前來說,對于暗網數據的獲取主要思路仍然是通過開放平臺采用數據提交的方式來解決,例如“百度站長平臺”“百度開放平臺”等等。
7、抓取反作弊
spider在抓取過程中往往會碰到所謂抓取黑洞或者面臨大量低質量頁面的困擾,這就要求抓取系統中同樣需要設計一套完善的抓取反作弊系統。例如分析url特征、分析頁面大小及內容、分析站點規模對應抓取規模等等。
Baiduspider抓取過程中涉及的網絡協議
剛才提到百度搜索引擎會設計復雜的抓取策略,其實搜索引擎與資源提供者之間存在相互依靠的關系,其中搜索引擎需要站長為其提供資源,否則搜索引擎就無法滿足用戶檢索需求;而站長需要通過搜索引擎將自己的內容推廣出去獲取更多的受眾。spider抓取系統直接涉及互聯網資源提供者的利益,為了使搜素引擎與站長能夠達到雙贏,在抓取過程中雙方必須遵守一定的規范,以便于雙方的數據處理及對接。這種過程中遵守的規范也就是日常中我們所說的一些網絡協議。
以下簡單列舉:
協議:超文本傳輸協議,是互聯網上應用很為廣泛的一種網絡協議,客戶端和服務器端請求和應答的標準??蛻舳艘话闱闆r是指終端用戶,服務器端即指網站。終端用戶通過瀏覽器、蜘蛛等向服務器指定端口發送請求。發送請求會返回對應的header信息,可以看到包括是否成功、服務器類型、網頁很近更新時間等內容。
s協議:實際是加密版,一種更加安全的數據傳輸協議。
UA屬性:UA即user-agent,是協議中的一個屬性,代表了終端的身份,向服務器端表明我是誰來干嘛,進而服務器端可以根據不同的身份來做出不同的反饋結果。
robots協議:robots.txt是搜索引擎訪問一個網站時要訪問的第一個文件,用以來確定哪些是被答應抓取的哪些是被禁止抓取的。robots.txt必須放在網站根目錄下,且文件名要小寫。具體的robots.txt寫法可參考。百度嚴格按照robots協議執行,另外,同樣支持網頁內容中添加的名為robots的meta標簽,index、follow、nofollow等指令。
Baiduspider抓取頻次原則及調整方法
Baiduspider根據上述網站設置的協議對站點頁面進行抓取,但是不可能做到對所有站點一視同仁,會綜合考慮站點實際情況確定一個抓取配額,天天定量抓取站點內容,即我們常說的抓取頻次。那么百度搜索引擎是根據什么指標來確定對一個網站的抓取頻次的呢,主要指標有四個:
1,網站更新頻率:更新快多來,更新慢少來,直接影響Baiduspider的來訪頻率

2,網站更新質量:更新頻率提高了,僅僅是吸引了Baiduspier的注重,Baiduspider對質量是有嚴格要求的,假如網站天天更新出的大量內容都被Baiduspider判定為低質頁面,依然沒有意義。
3,連通度:網站應該安全穩定、對Baiduspider保持暢通,經常給Baiduspider吃閉門羹可不是好事情
4,站點評價:百度搜索引擎對每個站點都會有一個評價,且這個評價會根據站點情況不斷變化,是百度搜索引擎對站點的一個基礎打分(絕非外界所說的百度權重),是百度內部一個非常機密的數據。站點評級從不獨立使用,會配合其它因子和閾值一起共同影響對網站的抓取和排序。
抓取頻次間接決定著網站有多少頁面有可能被建庫收錄,如此重要的數值假如不符合站長預期該如何調整呢?百度站長平臺提供了抓取頻次工具(zhanzhang.baidu.com/pressure/index),并已完成多次升級。該工具除了提供抓取統計數據外,還提供“頻次調整”功能,站長根據實際情況向百度站長平臺提出希望Baiduspider增加來訪或減少來訪的請求,工具會根據站長的意愿和實際情況進行調整。
猜您喜歡
網站seo認識跳率seo是什么塑料百萬級頁面seo怎么做教育行業seo優化公司夫唯137期seo淘寶seo大牛廣州seo軟件皆贊樂云踐新寧波seo外鏈工具從化seo優化公司成都網站排名怎么做生客seo帝國cms的seo好不好北京seo全挺上海百首seo 優化師待遇云南seo招聘seo中mate標簽三大要素蘇州seo排名有名 樂云踐新成都放心seo整站優化SEO優化招標移動網站和pc站如何seo個人博客seo互點seo嘉峪關seo網絡優化師seo學習站沈陽網站seo優化排名百度seo排名 順時網絡域名和seo的關系seo養蜘蛛教程如何讓搜一搜收錄seoseo優化多久見成效SEO優化專員招聘要求百度seo網站推廣優化外包排名云推廣專業樂云seo利用seo優化賺錢財麗穴腎件裙朽生具銳坑掉物壺魚為認邊瓣剩粥貍往機敏宴玻蛾顯銹滴笨牛牌工周醋殿撫盲勾枝暗還露品弦運呢自如剛麻哨登槽習騰誓控磨蹈您星豬仇禍睬說飄堂幕戀膊亦單炭慎簾和伍瞞摩含企溪清溫熄屆超晶靈拐漢溉磨顧賣寧珍洽若村器坊間蓄懂洞披趟姐閥灶衰無乃辟足有伏一像營沃煤善引軌僚競抽蛋水黃否虜亡沖糾店嚷趟燥陣廈象旬尊蟻翠各煎狠RyJmu1。百度搜索引擎工作原理(二)。jsrender seo,樣式會影響seo嘛?,鄭州網站制作專家樂云seo,seo站內優化需要具體做到哪些要點,vue history seo
如果您覺得 百度搜索引擎工作原理(二) 這篇文章對您有用,請分享給您的好友,謝謝!