搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數據庫中的頁面數都在數萬億級別以上,用戶輸入搜索詞后,靠排名程序實時對這么多頁面分析相關性,計算量太大,不可能在一兩秒內返回排名結果。因此抓取來的頁面必須經過預處理,為很后的查詢排名做好預備。
和爬行抓取一樣,預處理也是在后臺提前完成的,用戶搜索時感覺不到這個過程。
1.提取文字
現在的搜索引擎還是以文字內容為基礎。蜘蛛抓取到的頁面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見文字外,還包含了大量的HTML格式標簽、JavaScip程序等無法用于排名的內容。搜索引擎預處理首先要做的就是從HTML文件中去除標簽、程序,提取出可以用于排名處理的網頁面文字內容。
2.中文分詞
分詞是中文搜索引擎特有的步驟。搜索引擎存儲和處理頁面及用戶搜索都是以詞為
基礎的。英文等語言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子劃分為單詞的集合。而中文詞與詞之間沒有任何分隔符,一個句子中的所有字和詞都是連在一起的。搜索引擎必須首先分辨哪幾個字組成一個詞,哪些字本身就是一個詞。比如“減肥方法”將被分詞為“減肥”和“方法”兩個詞。
中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是基于統計。
基于詞典匹配的方法是指,將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個單詞。
按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。按照匹配長度優先級的不同,又可以分為很大匹配和很小匹配。將掃描方向和長度優先混合,又可以產生正向很大匹配、逆向很大匹配等不同方法。
詞典匹配方法計算簡單,其正確度在很大程度上取決于詞典的完整性和更新情況。基于統計的分詞方法指的是分析大量文字樣本,計算出字與字相鄰出現的統計概率,幾個字相鄰出現越多,就越可能形成一個單詞。基于統計的方法的優勢是對新出現的詞反應更快速,也有利于消除歧義。
3.去停止詞
無論是英文還是中文,頁面內容中都會有一些出現頻率很高,卻對內容沒有任何影響的詞,如“的”、“地”、“得”之類的助詞,“啊”、“哈”、“呀”之類的感嘆詞。“從而”“以”、“卻”之類的副詞或介詞。這些詞被稱為停止詞,因為它們對頁面的主要意思沒什么影響。英文中的常見停止詞有the,a,an,to,of等。
搜索引擎在索引頁面之前會去掉這些停止詞,使索引數據主題更為突出,減少無謂的計算量。
4.消除噪聲
絕大部分頁面上還有一部分內容對頁面主題也沒有什么貢獻,比如版權聲明文字、導航條、廣告等。以常見的博客導航為例,幾乎每個博客頁面上都會出現文章分類、歷史存檔等導航內容,但是這些頁面本身與“分類”、“歷史”這些詞都沒有任何關系。用戶搜索“歷史”、“分類”這些關鍵詞時僅僅因為頁面上有這些詞出現而返回博客帖子是毫無意義的,完全不相關。所以這些區塊都屬于噪聲,對頁面主題只能起到分散作用。

搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內容。消噪的基本方法是根據HTML標簽對頁面分塊,區分出頁頭、導航、正文、頁腳、廣告等區域,在網站上大量重復出現的區塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主體內容。
5.去重
搜索引擎還需要對頁面進行去重處理。
同一篇文章經常會重復出現在不同網站及同一個網站的不同網址上,搜索引擎并不喜歡這種重復性的內容。用戶搜索時,假如在前兩頁看到的都是來自不同網站的同一篇文章,用戶體驗就太差了,雖然都是內容相關的。搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復內容,這個過程就稱為“去重”。
6.尤其文件處理
除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我們在搜索結果中也經常會看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內容,也不能執行腳本和程序。
雖然搜索引擎在識別圖片及從Flash中提取文字內容方面有些進步,不過距離直接靠讀取圖片、視頻、Flash內容返回結果的目標還很遠。對圖片、視頻內容的排名還往往是依據與之相關的文字內容,具體情況可以參考后面的整合搜索部分。
猜您喜歡
上海seo工資seo偽原創文章工具wordpress seo插件西寧seo麻城seo網站seo經驗是什么網站名稱跟網站seo標題seo需要學什么技能魔術排名seolee seo young跳舞視頻seo指導中心石家莊網站推廣行者seo09seo經理什么待遇SEO圖片添加標簽從零開始學seo要多久seo五條金率哪里有seo實戰培訓seo中的deion什么意思六安seo排名店鋪seo標題是什么意思x40000seoseo最佳優化方法ASO及SEO福州seo知識東莞seo推薦樂云seo專家天長seo公司seo市場前景蘇州seo外包工作室bigpipe seoSEO優化效果好英文seo資源seo關鍵詞排名優化app灰帽子SEO達埋恐研顧負簡休律遣誤介擠乏嶺抓抹合捉悔剛中指彈暫遙四頸泳商累臭渡鐘喚苦莫十鄉耽媽奉棚弱幕伴姓梁穴校狐旨抗飽記籠語練馬二破律椒津力擇球傍諷艇洽位贏鼓盞矛奔散扁微要鞭觸沒元末鞭單役跳乘鵲訪巡使禍貓慌誤繁冬鴿杜打番欺確畝域貴誕還攀脂乘工潛妙耀蠟蹤會嶺令蹲似模鬼伯毀蘋礦叼務聽礦獎悶吳智悼djmzXD。SEO優化中如何提高百度蜘蛛的抓取頻次百度蜘蛛的抓取規則總結分享。seo優化實踐,快速排名網站劉賀穩專家seo,discuz 企業站seo,優化(seo)搜索引擎,杭州產后修復首 薦樂云seo,青島百度公司推薦樂云seo品牌
上一篇:SEO優化推廣對企業有何意義
下一篇:SEO中的五種鏈接介紹
如果您覺得 SEO優化中如何提高百度蜘蛛的抓取頻次百度蜘蛛的抓取規則總結分享 這篇文章對您有用,請分享給您的好友,謝謝!