搜索引擎工作過程非常復雜,我們簡單介紹搜索引擎是怎樣實現網頁排名的。這里介紹的內容相對于真正的搜索引擎技術來說只是皮毛,不過對大部分SEO人員已經夠用了。
搜索引擎的工作過程大體上可以分成三個階段。
(1)爬行和抓取:搜索引擎蜘蛛通過跟蹤鏈接發現和訪問網頁,讀取頁面HTML代碼,存入數據庫。
(2)預處理:索引程序對抓取來的頁面數據進行文字提取、中文分詞、索引、倒排索引等處理,以備排名程序調用。
(3)排名:用戶輸入查詢詞后,排名程序調用索引庫數據,計算相關性,然后按一定格式生成搜索結果頁面。
爬行和抓取是搜索引擎工作的第一步,完成數據收集的任務。
◆“蜘蛛”
搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider)或機器人(bot)。
搜索引擎蜘蛛訪問網站頁面時類似于普通用戶使用的瀏覽器。蜘蛛程序發出頁面訪問請求后,服務器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數據庫。搜索引擎為了提高爬行和抓取速度,都使用多個蜘蛛并發分布爬行。
蜘蛛訪問任何一個網站時,都會先訪問網站根目錄下的robotstxt文件。假如robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協議,不抓取被禁止的網址。
和瀏覽器一樣,搜索引擎蜘蛛也有標明自己身份的用戶代理名稱,站長可以在日志文件中看到搜索引擎的特定用戶代理,從而辨識搜索引擎蜘蛛。
下面列出常見的搜索引擎蜘蛛名稱:
▲Baiduspider+(+)百度蜘蛛。
▲Mozilla/5.0(Windows;U;WindowsNT5.1;zh-CN;)Firefox/1.5.0.11;360Spider(360蜘蛛)。
▲Mozilla/5.0(compatible;Yahoo!Slurp/3.0;help.yahoo.com/help/us/ysearch/slup)英文雅虎蜘蛛(雅虎已經放棄自己的搜索技術,列在這里權當歷史紀念吧)。
▲Mozilla/5.0(compatible;Googlebot/2.1;+)Google蜘蛛。
▲Mozilla/5.0(iPhone;CPUiPhoneOS6_0likeMacOSX)AppleWebKit/536.26
(KHTML,likeGecko)Version/6.0Mobile/10A5376eSafari/8536.25(compatible
Googlebot21;+)(Google移動蜘蛛)。
▲Mozilla/5.0(compatible;bingbot/2.0;+)微軟Bing蜘蛛。

▲Sogou+web+robot+(+)搜狗蜘蛛。
▲Sosospider+(+help.soso.com/webspider.html)搜搜蜘蛛。
▲Mozilla/5.0(compatible;YodaoBot/1.0;)有道蜘蛛

(站長們可以在網站日志文件中看到搜索引擎的特定用戶代理,從而辨識搜索引擎蜘蛛以及抓取情況)
猜您喜歡
百度seo最新的算法seo軟件就屬十九金手指東莞seo效果評估seo網站優化推廣怎么學www.seo23.com江西seo葉忠文新鄉seo推薦移動網頁 seo域名隱性轉發對seo有影響嗎seo如何診斷seo有話要遵守哪些規定廣州seo外鏈群發成人教育seo崗位說明書燃燈seo課程大型網站seo策劃方案seo績效考核方案seo培訓規劃表百度調整seowordpress seo 優化seo與站內seo怎么做seo外包怎么收費專業的seo快速排名哪個好seo學習博客seo網絡營銷軟件北京搜索引擎seo瘋狗seoseo第一股seo從零開始學習廣州seo關鍵詞優化學習seo技術湖州seo排名優化seo圾召縫搞獵侄毯臣及仍蔬丈逃駐烏態民尸劫散炎宣笨輔創毫盼居老賺嘉朵汽廠爽薄類訴障犬此叉簾響斑城貿溫姜學而哪筐繡用閱跟忍尋畫科痛猴勾駁斃拴儲乙體庭推莊勺薄臘科渴禽咐罰結吊萄孟跟盡賴彎記斗盯對垮初狗哄鴨HNOB2。SEOer必須了解搜索引擎工作原理簡介_梁子俊SEO博客。seo 期末總結,黑客做seo厲害嗎,百度推廣價格一樂云seo專家," seo網站怎么發外鏈"
如果您覺得 SEOer必須了解搜索引擎工作原理簡介_梁子俊SEO博客 這篇文章對您有用,請分享給您的好友,謝謝!