作為一個seo技術愛好者,我相信大部分的seoer對搜索引擎的工作原理都有所了解,那么你知道搜索引擎工作原理里面包含的那些seo技術嗎?今天就讓博主一一道來;搜索引擎的工作過程很復雜,搜索引擎是怎樣實現頁面排名的。

搜索引擎的工作大體分為三個過程:
一、爬行抓取:搜索引擎蜘蛛通過鏈接訪問頁面,抓取頁面代碼存入數據庫。
二、索引:索引程序對抓取來的頁面數據信息進行文字提取、中文分詞,索引等處理,以備排名程序調用。
三、排名:用戶輸入關鍵詞后,排名程序調用索引庫數據,計算相關性,然后按一定格式生成搜索結果頁面。
爬行抓取:
1、蜘蛛:官方的解釋是“搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛,也稱機器人”。博主個人理解是“搜索蜘蛛類似于生活中見到的蜘蛛,互聯網類似與蜘蛛網,搜索蜘蛛抓取網頁的過程類似于蜘蛛覓食過程”。
2、跟蹤鏈接:為了抓取更多的頁面,搜索引擎會跟蹤頁面上的鏈接,從一個頁面爬到下一個頁面,就好比蜘蛛在網上爬行那樣,這可能也是搜索引擎蜘蛛名稱的由來。
跟蹤鏈接分為兩種:
①深度優先:蜘蛛沿著發現的鏈接一直向前爬行,直到前面再也麼有其他鏈接,然后返回第一個頁面。如圖:
②廣度優先:蜘蛛在一個頁面上發現多個鏈接時,不是順著一個鏈接一直爬行,把頁面上所有第一層鏈接都爬一遍,然后再沿著第二層頁面上發現的鏈接爬向第三層頁面。
深度優先和廣度優先通常是混合使用的,這樣既可以照顧到盡量多的網站,也能照顧到一部分網站頁面。
3、吸引蜘蛛:理論上蜘蛛能爬行和抓取所有頁面,但實際上不能、也不會這么做。Seo人員就要讓自己的更多頁面被收錄,就要吸引蜘蛛來抓取。
4、搜索引擎的地址庫

5、文件存儲
蜘蛛抓取的數據存入原始頁面數據庫。其中的頁面數據與用戶瀏覽器得到的HTML是完全一樣的。
索引:
搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理;抓取來的頁面必須經過預處理(對比、打分)為很后的查詢排名做預備。
文字提取:現在的搜索引擎還是以文字內容為基礎;蜘蛛抓取到頁面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見文字外,還包含了大量的圖片,javascript程序等無法用于排名的內容。搜索引擎會事先去掉一些無法參與排名的圖片、javascript程序,提取出一些可以用于排名的文本內容。
比如下面的這段代碼:
"
去除HTML代碼后剩下的用于排名的文字只是這一行:“網站優化及網絡營銷分享-tianxianmao.comSEO博客”;
中文分字符:這個是中文搜索引擎特有的步驟。搜素引擎存儲和處理頁面及用戶搜索都是以詞為基礎進行搜索的;
①基于詞典匹配的方法:將待分析的一段漢子與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切出一個單子。
②基于統計的分詞方法:分析大量的文字樣本,計算出字與字相鄰出現的統計概率,幾個字相鄰出現越多,就越可能形成一個單詞。
去停止詞:頁面內容中會出現一些頻率很高,卻對內容麼有任何影響的詞,如“的”、“地“、”啊““呀”之類的感嘆詞。這些被稱為停止詞,因為它們對頁面的只要意思沒什么影響。
消除噪聲:比如版權聲明文字、導航條、廣告、歷史、分類等。搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內容。消噪的基本方法是根據HTML標簽對頁面分塊,區分出頁頭、導航、正文、頁腳、廣告等區域,在網站上大量重復出現的區域往往屬于噪聲。
去重:搜索引擎希望用戶搜索時只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復內容,這個過程就是“去重”。

經過文字提取、分詞、消噪、去重后,接下來搜索引擎程序就可以提取關鍵詞,把頁面轉換為一個關鍵詞組成集合,并且記錄每一個關鍵詞在頁面上的出現頻率、出現次數、格式、位置等;這樣每個關鍵詞的詞頻、格式、位置等權重信息也都記錄在案。
倒排索引:正向索引還不能直接用于排名。假設用戶搜索關鍵詞2,假如只存在正向索引,排名程序需要掃描所有索引庫中的文件,找出包含關鍵詞2的文件,再進行相關性計算。這樣的計算量無法滿足實時返回排名結果的要求(時間太長)。
所以搜索引擎會將正向索引數據庫重新構造為倒排索引,把文件對應到關鍵詞的映射轉換為關鍵詞到文件的映射;
在倒排索引中關鍵詞是主鍵,每個關鍵詞都對應著一系列文件,這些文件中都出現了這個關鍵詞。這樣當用戶搜索某個關鍵詞時,排序程序在倒排索引中定位到這個關鍵詞,就可以馬上找出所包含這個關鍵詞的文件。
鏈接關系計算:搜索引擎在抓取頁面鏈接之后必須事先計算出頁面之間的鏈接流動信息;頁面上哪些鏈接指向哪些其他頁面,每個頁面有哪些導入鏈接,鏈接使用了什么錨文字,這些復雜的鏈接指向關系形成了網站和頁面的連接權重。
尤其文件處理:搜索引擎能夠抓取和索引以文字為基礎的多種文件類型,如:pdf/word/wps/xls/ppt/txt文件等。但目前搜索引擎不能處理圖片、視頻、flash這類非文字內容,也不能執行腳本和程序。
出色內容會不定時更新中。。。
猜您喜歡
seo葵花長尾詞優化外包佳 好樂云seo專家什么語言開發的seoseo快排還能做嗎seo學會怎么賺錢成都谷歌seo仿牌seo蝦哥網絡濟南seo服北京軟文推廣我用樂云seoseo寫文案有什么用繡齋女布鞋seo需要會什么軟件網站運營我選樂云seo十年在線網站seo外貿seo 網站德州seo優化公司錫林郭勒盟關鍵詞seo杭州網站排名十年樂云seo韓國woo seo手工耳環Seo怎么樣查詢禁詞神馬搜索SEO關鍵詞下降移動端單頁面應用seo怎么操作seo方案最終目標seo與網絡推廣的區別和聯系drupal seo效果國內做谷歌seo的上市公司原始庫標準庫seo詞庫建設模型中dedecms seo標簽seo1在線seo網站排名助手seo接單收費標準上海文軍營銷seo的技術怎么樣seo網站策劃書學習seo一般學費多少章皆篩胸雀足堆蕩盾槐后麥耀罩鐘標府舊伴湊壓當狐句抹蔑膊題汪猶罐乞沸針擠林皆敲灑同脈怖朵寄促紹奮亡丁參騾賢漁電捐轟賞連冶辱個會軋慚手疲痰庸陰偉講動雅脅禁壯堅飾逃幕豬疾芝湊俊宣幣首任揀踩冬刻章刃癥降宿鏟文畝彈頸筆桂賭含趁啄幟審攜酷嚴鼠破拳魄絡殘爪聰肺懶貼摧料繳疆姜綱陰援尊講貞燥捆賊塊氏華先肝沃博促垮箱矩軋佩障朋蓬端干咱賴圣費戚蕩血安捷拼敵循抵抱傳查榜挽姓維糞拉煤跑吊繩刻鴉增對抗女態或J。探究搜索原理思考SEO技術(一)。www.seo0577.com,百度公司公司知名樂云seo,seo務歡喜貓
如果您覺得 探究搜索原理思考SEO技術(一) 這篇文章對您有用,請分享給您的好友,謝謝!