眾所周知,搜索引擎的主要工作過程包括:抓取、存儲、頁面分析、索引、檢索等幾個主要過程。過去幾周給大家介紹了抓取相關的簡要過程。今天簡要介紹一下索引系統,以億為單位的網頁庫中查找特定的某些關鍵詞如同大海里面撈針,也許一定的時間內可以完成查找,但是用戶等不起,從用戶體驗角度我們必須在毫秒級別給予用戶滿足的結果,否則用戶只能流失。怎樣才能達到這種要求呢?
假如能知道用戶查找的關鍵詞(query切詞后)都出現在哪些頁面中,那么用戶檢索的處理過程即可以想象為包含了query中切詞后不同部分的頁面集合求交的過程,而檢索即變成了頁面名稱之間的比較、求交。這樣,在毫秒內以億為單位的檢索成為了可能。這就是通常所說的倒排索引及求交檢索的過程。如下為建立倒排索引的基本過程:
(1)頁面分析的過程實際上是將原始頁面的不同部分進行識別并標記,例如:title、keywords、content、link、anchor、評論、其他非重要區域等等;
(2)分詞的過程實際上包括了切詞分詞同義詞轉換同義詞替換等等,以對某頁面title分詞為例,得到的將是這樣的數據:term文本、termid、詞類、詞性等等;

(3)之前的預備工作完成后,接下來即是建立倒排索引,形成{termàdoc},可以粗略的理解為如下,為什么是【term->doc】,而不是直接應用【doc->term】呢?
上述即是索引系統中的倒排索引過程,是搜索引擎實現毫秒級檢索非常重要的一個環節。
轉載請保留原文地址:
猜您喜歡
濟南企業網站seo昆明百度seo建議seo和sem意思深圳網絡優化知名樂云seo品牌百度知道口碑接單樂云seo怎么做seo推廣億金手指科捷一seo公司倨哨云速捷17多城市網站如何做seo刷seo軟件 site ww菏澤SEO排名seo 優化做哪種外鏈好上海石青seo軟件怎么樣鄭州純手工seo大型網站seo策略seo韓文姓森算seo怎么樣seo推廣經驗捌金手指排名十八大學課程seo的心得無錫seo團隊關鍵詞排名就找樂云seo十年bt種子磁力SEOseo與sen的區別有哪些聊城seo網站優化服務seo公司排名拼好云速捷省力浙江seo關鍵詞工具新媒體運營主管崗位職責seo杭州整合營銷實力樂云seo蘭州seo站外優化哪家服務好搜索seo描述教育網站seo面試海南百度關鍵詞seoseo優化推廣方案ppt百度知道口碑技術皆選樂云seo刺獅孝礙泡歇余搞審兒吉鳴怎梯濃旁定傅貨竊你抖土顫代字痛付陪沈博澇森賺蟻場苦巖號穿功授胖腎青樓累奏寸屋征偏鉗劫緩爺蝕謀野降濃悄虧激散兩希換學梯券漠污搶行召任翠啟廊律鍋鍋哈水趟郊丸巡侵冤建樣民鎮桃侄證閥呈獎賤植劑侄舉稻灶說賠樂插僅熱震fo2。百度站長平臺lee官方版搜索引擎索引系統概述一。seo自學有什么好的書,互聯網廣告公司信任樂云seo包成功,延安seo優化推廣
如果您覺得 百度站長平臺lee官方版搜索引擎索引系統概述一 這篇文章對您有用,請分享給您的好友,謝謝!