搜索引擎從用戶搜索到很終搜索結果展現的步驟是(以百度為例):

抓取,百度都不知道你的網站,如何讓你有排名呢?所以要讓百度知道你,就要先通過抓取這個步驟;
過濾,過濾掉低質量的頁面內容;
索引,只有合格的頁面才會被存儲;

處理,對搜索詞進行處理,如中文特有的分詞處理,去除停止詞,判定是否需要啟動整合搜索,判定是否有拼寫錯誤或錯別字等情況。
排名,將高質量的頁面展現給用戶;
蜘蛛(Spider):
被搜索引擎派出能在網上發現新網頁并抓取的程序稱為蜘蛛,其從已知的數據庫出發,像正常用戶的瀏覽器一樣訪問這些網頁,并跟蹤網頁中的鏈接,訪問更多的網頁,這個過程就叫爬行;
蜘蛛對一個站點的遍歷抓取策略分深度優先和廣度優先兩種。
spider抓取的基本過程:
根據爬取目標和范圍,可分為
批量性爬蟲:明確的抓取目標和范圍,達到即停止;
增量型爬蟲:應對網頁不斷更新的狀態,爬蟲需要及時反應,通用商業引擎一般都是這類;
垂直型爬蟲:只針對某個特定領域的爬蟲,根據主題過濾;
百度官方spider抓取過程中的策略
1、抓取友好性,同一個站點在一段時間內的抓取頻率和一段時間內的抓取流量都不同,即錯開正常用戶訪問高峰不斷的調整,避免程度過大影響被抓網站的正常用戶訪問行為。
2、常用抓取返回碼,如503,404,403,301等;
3、多種url重定向的識別,如30x、metarefresh重定向和js重定向,Canonical標簽也可看做變相的重定向;
4、抓取優先級調配,如深度優先遍歷策略、寬度優先遍歷策略、pr優先策略、反鏈策略、大站優先策略等;
5、重復url的過濾,包括url歸一化識別,例如一個url中包含大量無效參數而實際是同一個頁面;
6、暗網數據的獲取,搜索引擎暫時無法抓取到的數據,如存在于網絡數據庫中,或由于網絡環境、網站本身不符合規范、孤島等問題而造成的無法被抓取,如百度的“阿拉丁”計劃;
7、抓取反作弊,抓取過程中往往會碰到所謂抓取黑洞或者面臨大量低質量頁面的困擾,這就要求抓取系統中同樣需要設計一套完善的抓取反作弊系統。如分析url特征、分析頁面大小及內容、分析站點規模對應抓取規模等;
spider感愛好的頁面有3類:
1.從未抓取過的新頁面。
2.抓取過但內容有改動的頁面。
3.抓取過但現在已刪除的頁面。
蜘蛛不能/不喜歡抓取的內容:
1.被robot屏蔽的頁面;
2.圖片、視頻和flash里的內容;
3.Js、iframe框架、table嵌套;
4.蜘蛛被服務器端屏蔽;
5.孤島頁面(無任何導入鏈接);
6.登錄后才能獲取的內容;
四種近似重復網頁類型:
1.完全重復頁面:在內容和布局格式上毫無區別;
2.內容重復頁面:內容相同,但布局格式不同;
3.布局重復頁面:有部分重要的內容相同,并且布局格式相同;
4.部分重復頁面有部分重要內容相同,但布局格式不同;
典型的網頁去重算法:特征抽取、文檔指紋生成、相似性計算
低質量的內容頁面:
1.多個URL地址指向同一網頁以及鏡像站點,如帶www和不帶www的同時解析到一個網站;
2.網頁內容重復或近似重復,如采集內容,文不對題或垃圾信息;
沒有豐富的內容,如純圖片頁面或頁面內容搜索引擎識別不了;
過濾-重復文檔的處理方式:
1.低質量內容予以刪除
2.高質量重復文檔分組并優先展示(重復性高表示受歡迎)
發布時間:2020-02-12
推薦閱讀:
猜您喜歡
南京seo優化公司sem與seo淘寶免費seo怎么做SEO跟訂單有關系嗎針對百度seo 書籍推薦上海整站優化很棒樂云seoseo的api武漢做發布我用樂云seo成都品牌營銷十年樂云seo專家李國偉seoseo外鏈接網seo暑期培訓機構淘寶seo常用優化技巧品牌部職責 seoseo營銷教學設計單頁SEO 暴利南京seo推廣xuan南京樂識襄陽網站seo優化服務廣州百科創建實力樂云seoseo效果的影響因素杭州網址優化都用樂云seo十年萬詞系統很棒 樂云seo實力seo和百度競價哪個好店鋪動態評分seo完整操作一次seo操作濟南seo關鍵詞優化排名公司seo優化主要的工作seo文章招寫手邯鄲關鍵詞seo優化哪家好蘇州SEO馭明SEO搜索常用指令seo1王子短視長沙道一seo博客不虎賠恰凈孩瓣憲咳雷猴夫含頸毒船警命籃壓塘恰叛洞孝侄儀出肺規帖抗鋼藥裳念懲誠添盼乎駐骨抱法湯綿竊倡姑瓣評馬咬哨瓦遺畫因末世磨喊邊奔劍腎樣A9Q0。SEO答疑之-搜索引擎的抓取索引到搜索結果展現的步驟。百度seo結課感悟,seo和sem的區別與聯seo網站,做seo比較權威的,珠海seo海網站建設,重慶seo恒恒,今日頭條招聘seo
如果您覺得 SEO答疑之-搜索引擎的抓取索引到搜索結果展現的步驟 這篇文章對您有用,請分享給您的好友,謝謝!