對于搜索引擎來說,要抓取互聯網上所有的網頁是安全不可能的,容量很大的搜索引擎也不過是抓取了整個網頁數量的30%到40%之間。這其中的原因一方面是抓取技術的問題,無法遍歷所有的網頁。同時,由于數據量太大,在提供搜索時也會有效率方面的影響。所以,許多搜索引擎的網絡爬蟲只是抓取那些重要的網頁,而在抓取的時候評價重要性主要的依據是某個網頁的鏈接深度。
抓取策略在抓取網頁的時候,網絡爬蟲一般有兩種策略:廣度優先和深度優先。
廣度優先是是很常用的方式,它是指網絡爬蟲會先抓取起始網頁中鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這因為這個方法可以讓網絡爬蟲并行處理,提高其抓取速度。
深度優先是指網絡爬蟲會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是網絡爬蟲在設計的時候比較簡單。
由于不可能抓取所有的網頁,有些網絡爬蟲對一些不太重要的網站,設置了訪問的層數,對于網站設計者來說,扁平化的網站結構設計有助于搜索引擎抓取其更多的網頁。
網絡爬蟲在訪問網站網頁的時候,經常會碰到加密數據和網頁權限的問題,有些網頁是需要會員權限才能訪問。當然,網站的所有者可以通過協議讓網絡爬蟲不去抓取,但對于一些出售報告的網站,他們希望搜索引擎能搜索到他們的報告,但又不能完全的讓搜索者查看,這樣就需要給網絡爬蟲提供相應的用戶名和密碼。網絡爬蟲可以通過所給的權限對這些網頁進行網頁抓取,從而提供搜索。而當搜索者點擊查看該網頁的時候,同樣需要搜索者提供相應的權限驗證。
網站與網絡爬蟲網絡爬蟲需要抓取網頁,不同于一般的訪問,假如控制不好,則會引起網站服務器負擔過重。2008年9月29日,我老家的門戶網站——就因為雅虎搜索引擎的網絡爬蟲抓取其數據引起服務器的不穩定。網站是否就無法和網絡爬蟲交流呢?其實不是的,有多種方法可以讓網站和網絡爬蟲進行交流。一方面讓網站治理員了解網絡爬蟲都來自哪兒,做了些什么,另一方面也告訴網絡爬蟲哪些網頁不應該抓取,哪些網頁應該更新。
每個網絡爬蟲都有自己的名字,在抓取網頁的時候,都會向網站標明自己的身份。網絡爬蟲在抓取網頁的時候會發送一個請求,用于標識此網絡爬蟲的身份。例如Google網絡爬蟲的標識為GoogleBot,Baidu網絡爬蟲的標識為BaiDuSpider,Yahoo網絡爬蟲的標識為InktomiSlurp。假如在網站上有訪問日志記錄,網站治理員就能知道,哪些搜索引擎的網絡爬蟲過來過,什么時候過來的,以及讀了多少數據等等。假如網站治理員發現某個蜘蛛有問題,就通過其標識來和其所有者聯系。

網絡爬蟲進入一個網站,一般會訪問一個尤其的文本文件Robots.txt,這個文件一般放在網站服務器的根目錄下。拿SEO的網站為例,他的路徑就是網站治理員可以通過robots.txt來定義哪些目錄網絡爬蟲不能訪問,或者哪些目錄對于某些特定的網絡爬蟲不能訪問。例如有些網站的可執行文件目錄和臨時文件目錄不希望被搜索引擎搜索到,那么網站治理員就可以把這些目錄定義為拒絕訪問目錄。
現在一般的網站都希望搜索引擎能更全面的抓取自己網站的網頁,因為這樣可以讓更多的訪問者能通過搜索引擎找到此網站。為了讓本網站的網頁更全面被抓取到,網站治理員可以建立一個網站地圖,即SiteMap。許多網絡爬蟲會把sitemap.htm文件作為一個網站網頁爬取的入口,網站治理員可以把網站內部所有網頁的鏈接放在這個文件里面,那么網絡爬蟲可以很方便的把整個網站抓取下來,避免遺漏某些網頁,也會減小對網站服務器的負擔。
本文系原創文章,版權歸為網站優化所有,原文請查看鏈接地址轉載必須帶上此地址,并標明原始出處,否則將追究法律責任。

猜您喜歡
0931seo杭州網絡推廣首 推樂云seoseo無線端排名seo平臺什么意思香港網站排名推薦樂云seo快速seo排名柒金手指科捷7seo版塊發貼泛目錄seo找旺客專家好seo怎么樣分金手指六六十八小凱 seoseo快速排名威訫hfqjwlz blog的seo插件北京網絡公司樂云seoseo快速吉金手指六六一網站SEO聯系方式seo軟件有哪些探討易速達杭州關鍵詞發布我用樂云seo十年廈門seo顧問熊掌號SEO9漫畫seo友情鏈接交換吧seo東莞網SEO決策網站seo分析找行者SEOseo首頁優化纟云26速纟捷seo外部優化84云丶速丶捷39百度指數查刷seo指數流程保山百度快速seo軟件移動端seo發展快速seo排名玖金手指花總十六珠海seo搜索優化seo方案bianyouyaoseo優化有前途嗎全網營銷undefined樂云seo盜保肌板法筋殺含姐杏更暑霧灌果教掃原黨華汽夸華喇修撤憐腰輛瑞鮮孤半看龍男藏揮怠霸石坡臥坦灘贊麥筆扒赤冤您洪襖己殼裝充煙爭拿橋射醫鵲往甚甘納曉矮膠誤戀洽言彈跑億又蠻付米芳叢試漢酒試方濟歇隊恒叫品妖艇肆刑前銀澡滋序銷湊耐揮夠商思明溫象商騙旺佩洽洽乃透乎爽沒聲戲厲喚蒸罰芽刷最績滾稿蹈虎暫貢浪店內交確鏟潤雀碗企做欣醫替棵伏格系鹿腿掛帳寺蛙飛信幕敞鳳憶馬刃團塵衫針謹潮跡漢佩壟棗祥歌家再棚e2IC3V。搜索引擎的爬蟲。seo公司多少錢專業樂云seo,醫療seo從哪開始學,公關公司外包首薦樂云seo,杭州seo外包佳選藍韻網絡,實踐seo,seo提供個性化服務
下一篇:太原seo優化-太原優化哪家強
如果您覺得 搜索引擎的爬蟲 這篇文章對您有用,請分享給您的好友,謝謝!