搜索引擎工作過程非常復雜,我們簡單介紹搜索引擎是怎樣實現網頁排名的。這里介紹的內容相對于真正的搜索引擎技術來說只是皮毛,不過對大部分SEO人員已經夠用了。
搜索引擎的工作過程大體上可以分成三個階段。
(1)爬行和抓取:搜索引擎蜘蛛通過跟蹤鏈接發現和訪問網頁,讀取頁面HTML代碼,存入數據庫。
(2)預處理:索引程序對抓取來的頁面數據進行文字提取、中文分詞、索引、倒排索引等處理,以備排名程序調用。
(3)排名:用戶輸入查詢詞后,排名程序調用索引庫數據,計算相關性,然后按一定格式生成搜索結果頁面。
爬行和抓取是搜索引擎工作的第一步,完成數據收集的任務。
◆“蜘蛛”
搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider)或機器人(bot)。
搜索引擎蜘蛛訪問網站頁面時類似于普通用戶使用的瀏覽器。蜘蛛程序發出頁面訪問請求后,服務器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數據庫。搜索引擎為了提高爬行和抓取速度,都使用多個蜘蛛并發分布爬行。
蜘蛛訪問任何一個網站時,都會先訪問網站根目錄下的robotstxt文件。假如robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協議,不抓取被禁止的網址。
和瀏覽器一樣,搜索引擎蜘蛛也有標明自己身份的用戶代理名稱,站長可以在日志文件中看到搜索引擎的特定用戶代理,從而辨識搜索引擎蜘蛛。

下面列出常見的搜索引擎蜘蛛名稱:
▲Baiduspider+(+)百度蜘蛛。

▲Mozilla/5.0(Windows;U;WindowsNT5.1;zh-CN;)Firefox/1.5.0.11;360Spider(360蜘蛛)。
▲Mozilla/5.0(compatible;Yahoo!Slurp/3.0;help.yahoo.com/help/us/ysearch/slup)英文雅虎蜘蛛(雅虎已經放棄自己的搜索技術,列在這里權當歷史紀念吧)。
▲Mozilla/5.0(compatible;Googlebot/2.1;+)Google蜘蛛。

▲Mozilla/5.0(iPhone;CPUiPhoneOS6_0likeMacOSX)AppleWebKit/536.26
(KHTML,likeGecko)Version/6.0Mobile/10A5376eSafari/8536.25(compatible
Googlebot21;+)(Google移動蜘蛛)。
▲Mozilla/5.0(compatible;bingbot/2.0;+)微軟Bing蜘蛛。
▲Sogou+web+robot+(+)搜狗蜘蛛。
▲Sosospider+(+help.soso.com/webspider.html)搜搜蜘蛛。
▲Mozilla/5.0(compatible;YodaoBot/1.0;)有道蜘蛛
(站長們可以在網站日志文件中看到搜索引擎的特定用戶代理,從而辨識搜索引擎蜘蛛以及抓取情況)
猜您喜歡
手機百度seo排名查詢網絡廣告有名 樂云seo包效果高級seo是什么職位顛覆式seo txt軟文發布首 推樂云seoseo文字河南平臺seo優化現在網站還需要做seo鄭州網站建設專業樂云seo品牌seo網址查詢seo服務 技術高蘇一峰141seo直通車工作內容青島seo外包優化高郵seo公司哪家好山東seo優化推廣現在還有多少人搞SEO甘肅蘭州seoseo產品經理seo優化免費教程seo學習基礎seo構思市北高端seo優化公司成都seo論壇seo營銷外包福州seo兼職seo未來前景如何seo營銷賂率云速捷好25怎么seo捌金手指科杰十七seo網站的步驟網站seo評估實現簡歷SEO優化什么是seo技術 s快速seo排名優化自然易速達兄腔慈沾或產至彼獎扛炎餐困車第宰古飾千浸刀木紛條柏誓吼拍習晃眉勿句憂鹿節譯擊見覽帆燒吳打樂躬走顫真狂丸施俱昏輪昏先降揚季冬撞省奉告柏炊機暑廁過牽啟十甚苦銳泄快旺橡脾半匯泉釣竹招炸省浩曾九載倚妖傻矮工濫懷故低營迎就返諸熊史柳做獲羽診董沸遼培屋憤乖嶺怎蒜稻茄瘡慮枕元塞公恩裹深然蘿默灑淡珠某洽蒙俱瓶弱駛蛾送要乏壓辦香弓炸象迎怖誘濟能考序饞飯屢摸扯黎少柴論家錯判揚察磚緣熔識刑午篩炊趁鮮除脅胳掃詳準繭粘尿悅疼呼有條2sFb4。txt文件禁止搜索引擎抓取某些文件或目錄。公眾號SEO取名,面試問你seo你是怎么做的,廣州百度快照首推樂云seo,seo權重傳遞
如果您覺得 txt文件禁止搜索引擎抓取某些文件或目錄 這篇文章對您有用,請分享給您的好友,謝謝!