搜索引擎很重要的是什么?有人會說是查詢結果的正確性,有人會說是查詢結果的豐富性,但其實這些都不是搜索引擎很很致命的地方。對于搜索引擎來說,很很致命的是查詢時間。試想一下,假如你在百度界面上查詢一個關鍵詞,結果需要5分鐘才能將你的查詢結果反饋給你,那結果必然是你很快的舍棄掉百度。
一名合格的seo工程師,一定會了解搜索引擎的工作原理,搜索引擎為了滿足對速度苛刻的要求(現在商業的搜索引擎的查詢時間單位都是微秒數量級的),所以采用緩存支持查詢需求的方式,也就是說我們在查詢搜索時所得到的結果并不是及時的,而是在其服務器已經緩存好了的結果。搜索引擎的工作原理其實很簡單,首先搜索引擎大致分為4個部分,第一個部分就是蜘蛛爬蟲,第二個部分就是數據分析系統,第三個部分是索引系統,第四個就是查詢系統咯,當然這只是基本的4個部分!
什么是搜索引擎蜘蛛,什么是爬蟲程序?
搜索引擎蜘蛛程序,其實就是搜索引擎的一個自動應用程序,它的作用是什么呢?其實很簡單,就是在互聯網中瀏覽信息,然后把這些信息都抓取到搜索引擎的服務器上,然后建立索引庫等等,我們可以把搜索引擎蜘蛛當做一個用戶,然后這個用戶來訪問我們的網站,然后在把我們網站的內容保存到自己的電腦上!比較好理解。
發現某一個鏈接→下載這一個網頁→加入到臨時庫→提取網頁中的鏈接→在下載網頁→循環
1、搜索引擎的蜘蛛需要去發現鏈接,至于怎么發現就簡單了,就是通過鏈接鏈接鏈接。
每一位站長只要你的網站沒有被嚴重降權,那么通過網站后臺的服務器,你都可以發現勤勞的蜘蛛光顧你的站點,但是你們有沒有想過從編寫程序的角度上來說,蜘蛛是怎么來的呢?針對于此,各方有各方的觀點。有一種說法,說蜘蛛的抓取是從種子站(或叫高權重站),依照權重由高至低逐層出發的。另一種說法蜘蛛爬在URL集合中是沒有明顯先后順序的,搜索引擎會根據你網站內容更新的規律,自動計算出何時是爬取你網站的很佳時機,然后進行抓取。
其實對于不同的搜索引擎,其抓取出發點定然會有所區別,針對于百度,筆者較為傾向于后者。在百度官方博客發布的《索引頁鏈接補全機制的一種辦法》一文中,其明確指出“spider會盡量探測網頁的發布周期,以合理的頻率來檢查網頁”,由此我們可以推斷,在百度的索引庫中,針對每個URL集合,其都計算出適合其的抓取時間以及一系列參數,然后對相應站點進行抓取。
2、搜索引擎蜘蛛在發現了這個鏈接后會把這個網頁下載下來并且存入到臨時的庫中,當然在同時,會提取這個頁面所有的鏈接,然后就是循環。
3、搜索引擎蜘蛛幾乎是24小時不休息的(在此為它感到悲劇,沒有假期。哈哈。)
4、那么蜘蛛下載回來的網頁怎么辦呢?這就需要到了第二個系統,也就是搜索引擎的分析系統。
搜索引擎的蜘蛛抓取網頁有規律嗎?
這個問題問的好,那么搜索引擎蜘蛛抓取網頁到底有規律嗎?答案是有!
假如蜘蛛胡亂的去抓取網頁,那么就費死勁了,互聯網上的網頁,天天都增加那么那么那么多,蜘蛛怎么可以抓取的過來呢?所以說,蜘蛛抓取網頁也是有規律的!
1、很常見的404代表“NOTFOUND”,認為網頁已經失效,通常將在庫中刪除,同時短期內假如spider再次發現這條url也不會抓取;
2、503代表“ServiceUnavailable”,認為網頁臨時不可訪問,通常網站臨時關閉,帶寬有限等會產生這種情況。對于網頁返回503狀態碼,百度spider不會把這條url直接刪除,同時短期內將會反復訪問幾次,假如網頁已恢復,則正常抓取;假如繼續返回503,那么這條url仍會被認為是失效鏈接,從庫中刪除。
3、403代表“Forbidden”,認為網頁目前禁止訪問。假如是新url,spider暫時不抓取,短期內同樣會反復訪問幾次;假如是已收錄url,不會直接刪除,短期內同樣反復訪問幾次。假如網頁正常訪問,則正常抓取;假如仍然禁止訪問,那么這條url也會被認為是失效鏈接,從庫中刪除。
4、301代表是“MovedPermanently”,認為網頁重定向至新url。當碰到站點遷移、域名更換、站點改版的情況時,我們推薦使用301返回碼,同時使用站長平臺網站改版工具,以減少改版對網站流量造成的損失。
互聯網中一部分網頁因為各種各樣的原因存在url重定向狀態,為了對這部分資源正常抓取,就要求spider對url重定向進行識別判定,同時防止作弊行為。重定向可分為三類:30x重定向、metarefresh重定向和js重定向。另外,百度也支持Canonical標簽,在效果上可以認為也是一種間接的重定向。
由于互聯網資源規模的巨大以及迅速的變化,對于搜索引擎來說全部抓取到并合理的更新保持一致性幾乎是不可能的事情,因此這就要求抓取系統設計一套合理的抓取優先級調配策略。主要包括:深度優先遍歷策略、寬度優先遍歷策略、pr優先策略、反鏈策略、社會化分享指導策略等等。每個策略各有優劣,在實際情況中往往是多種策略結合使用以達到很優的抓取效果。
spider在抓取過程中需要判定一個頁面是否已經抓取過了,假如還沒有抓取再進行抓取網頁的行為并放在已抓取網址集合中。判定是否已經抓取其中涉及到很核心的是快速查找并對比,同時涉及到url歸一化識別,例如一個url中包含大量無效參數而實際是同一個頁面,這將視為同一個url來對待
互聯網中存在著大量的搜索引擎暫時無法抓取到的數據,被稱為暗網數據。一方面,很多網站的大量數據是存在于網絡數據庫中,spider難以采用抓取網頁的方式獲得完整內容;另一方面,由于網絡環境、網站本身不符合規范、孤島等等問題,也會造成搜索引擎無法抓取。目前來說,對于暗網數據的獲取主要思路仍然是通過開放平臺采用數據提交的方式來解決,例如“百度站長平臺”“百度開放平臺”等等。
什么是深度優先?簡單的說,就是搜索引擎蜘蛛在一個頁面發現一個連接然后順著這個連接爬下去,然后在下一個頁面又發現一個連接,然后就又爬下去并且全部抓取,這就是深度優先抓取策略。大家看下圖
在上圖中就是深度優先的示意圖,我們假如網頁A在搜索引擎中的權威度是很高的,假如D網頁的權威是很低的,假如說搜索引擎蜘蛛按照深度優先的策略來抓取網頁,那么就會反過來了,就是D網頁的權威度變為很高,這就是深度優先!
寬度優先比較好理解,就是搜索引擎蜘蛛先把整個頁面的鏈接全部抓取一次,然后在抓取下一個頁面的全部鏈接。
上圖呢,就是寬度優先的示意圖!這其實也就是大家平時所說的扁平化結構,大家或許在某個神秘的角落看到一篇文章,告誡大家,網頁的層度不能太多,假如太多會導致收錄很難,這就是來對付搜索引擎蜘蛛的寬度優先策略,其實就是這個原因。
假如說寬度優先比深度優先好,其實也不是絕對的,只能說是各有各的好處,現在搜索引擎蜘蛛一般都是兩種抓取策略一起用,也就是深度優先+寬度優先,并且在使用這兩種策略抓取的時候,要參照這條連接的權重,假如說這條連接的權重還不錯,那么就采用深度優先,假如說這條連接的權重很低,那么就采用寬度優先!
那么搜索引擎蜘蛛怎樣知道這條連接的權重呢?
這里有2個因素:1、層次的多與少;2、這個連接的外鏈多少與質量;
那么假如層級太多的鏈接是不是就不會被抓取呢?這也不是絕對的,這里邊要考慮許多因素,我們在后邊的進階中會降到邏輯策略,到時候我在具體的給大家說!
我想這個比較好理解,就是比如昨天搜索引擎的蜘蛛來抓取了我們的網頁,而今天我們在這個網頁又加了新的內容,那么搜索引擎蜘蛛今天就又來抓取新的內容,這就是重訪抓取!重訪抓取也分為兩個,如下:
1、全部重訪
所謂全部重訪指的是蜘蛛上次抓取的鏈接,然后在這一個月的某一天,全部重新去訪問抓取一次!
2、單個重訪
單個重訪一般都是針對某個頁面更新的頻率比較快比較穩定的頁面,假如說我們有一個頁面,1個月也不更新一次。
那么搜索引擎蜘蛛第一天來了你是這個樣子,第二天,還是這個樣子,那么第三天搜索引擎蜘蛛就不會來了,會隔一段時間在來一次,比如隔1個月在來一次,或者等全部重訪的時候在更新一次。
以上呢,就是搜索引擎蜘蛛抓取網頁的一些策略!那么我們上邊說過,在搜索引擎蜘蛛把網頁抓取回來,就開始了第二個部分,也就是數據分析的這個部分。
數據分析系統,是處理搜索引擎蜘蛛抓取回來的網頁,那么數據分析這一塊又分為了一下幾個:
1、網頁結構化
簡單的說,就是把那些html代碼全部刪掉,提取出內容。
2、消噪
消噪是什么意思呢?在網頁結構化中,已經刪掉了html代碼,剩下了文字,那么消噪指的就是留下網頁的主題內容,刪掉沒用的內容,比如版權!
3、查重
查重比較好理解,就是搜索引擎查找重復的網頁與內容,假如找到重復的頁面,就刪除。
4、分詞
分詞是神馬東西呢?就是搜索引擎蜘蛛在進行了前面的步驟,然后提取出正文的內容,然后把我們的內容分成N個詞語,然后排列出來,存入索引庫!同時也會計算這一個詞在這個頁面出現了多少次。
5、鏈接分析
這一個步驟就是我們平時所做的做煩躁的工作,搜索引擎會查詢,這個頁面的反向鏈接有多少,導出鏈接有多少以及內鏈,然后給這個頁面多少的權重等。
數據索引系統
在進行了上邊的步驟之后,搜索引擎就會把這些處理好的信息放到搜索引擎的索引庫中。那么這個索引庫又大致分為以下兩個系統:
什么是正排索引?簡單的說,就是搜索引擎把所有URL都加上一個編號,然后這個編號對應的就是這個URL的內容,包括這個URL的外鏈,關鍵詞密度等等數據。
搜索引擎追求的三個目標就是更快,更全,更準。但是要達到這些目標并不是一件很輕松的工作,需要很多環節的處理。這一部分主要從以下一個方面來講講,怎樣提高搜索引擎的搜索結果,改善搜索質量,提升搜索性能。
1、?作弊分析
⑴作弊方法:內容作弊:設置無關關鍵字,內容農場(大量低質量內容)
⑵鏈接作弊:鏈接農場,互相鏈接...
⑶頁面隱藏作弊:欺騙爬蟲,隱藏無關關鍵字,重定向..
⑷WEB2.0作弊
2、反作弊整體思路
⑴信任傳播
⑵不信傳播
⑶異常發現

Ⅰ所謂信任傳播模型:基本思路如下:在海量的網頁數據中,通過一定的技術手段或者人工半人工手段,從中篩選出部分完全值得信任的頁面,也就是肯定不會作弊的頁面(可以理解為白名單),算法以這些白名單內的頁面作為出發點,賦予白名單內的頁面節點較高的信任度分值,其他頁面是否作弊,要根據其和白名單內節點的鏈接關系來確定。白名單內節點通過鏈接關系將信任度分值向外擴散傳播,假如某個節點很后得到的信任度分值高于一定閾值,則認為沒有問題,而低于這一閾值的網頁則會被認為是作弊網頁。
Ⅱ不信任傳播模型:從框架上來講,其和信任傳播模型是相似的,很大的區別在于:初始的頁面子集合不是值得信任的頁面節點,而是確認存在作弊行為的頁面集合,即不值得信任的頁面集合(可以理解為黑名單)。賦予黑名單內頁面節點不信任分值,通過鏈接關系將這種不信任關系傳播出去,假如很后頁面節點的不信任分值大于設定的閾值,則會被認為是作弊網頁。
Ⅲ異常發現模型:是一個高度抽象化的算法框架模型,其基本假設認為:作弊網頁必然存在有異于正常網頁的特征,這種特征有可能是內容方面的,也有可能是鏈接關系方面的。而制定具體算法的流程往往是先找到一些作弊的網頁集合,分析出其異常特征有哪些,然后利用這些異常特征來識別作弊網頁。
只要操縱搜索引擎搜索結果能夠帶來收益,那么作弊動機就會始終存在,尤其是在網絡營銷起著越來越重要宣傳作用的時代尤其如此。作弊與反作弊是相互抑制同時也是相互促進的一個互動過程,“道高一尺,魔高一丈”的故事不斷重演。前述內容主要是以技術手段來進行反作弊,而事實上純粹技術手段目前是無法徹底解決作弊問題的,必須將人工手段和技術手段相互結合,才能取得較好的反作弊效果。技術手段可以分為相對通用的手段和比較尤其的手段,相對通用的手段對于可能新出現的作弊手法有一定的預防能力,但是因為其通用性,所以針對性不強,對尤其的作弊方法效果未必好。而專用的反作弊方法往往是事后諸葛亮,即只有作弊行為已經發生并且比較嚴重,才可能歸納作弊特征,采取事后過濾的方法。人工手段則與技術手段有很強的互補性,可以在新的作弊方式一出現就被人發現,可以看做一種處于作弊進行時的預防措施。所以從時間維度考慮對作弊方法的抑制來說,通用反作弊方法重在預防,人工手段重在發現,而專用反作弊方法重在事后處理,其有內在的聯系和互補關系存在。
搜索引擎蜘蛛發現連接→根據蜘蛛的抓取策略抓取網頁→然后交到分析系統的手中→分析網頁→建立索引庫。
猜您喜歡
微博seo工具seo公司 amp 找南京樂識一流惠州網站建設都找樂云seo專家seo的老公失業上海網站建設靠譜樂云seoseo教程吳澤欣電子版高安巴夫高安seo劉鑫seoseo 錨點鏈接seo怎么做佰金手指花總十六西安seo課程培訓seo排名19迦唯840一90一097別克儀表盤顯示SEOSEO中的meta標簽三要素企業seo站v3.8網絡seo營銷哪家好seo專員和運營網絡廣告費用十年樂云seoseo優化的關鍵詞長尾詞seo手機工具seo公司拾金手指花總四seo頁面標題英文逗號seo文章要自己寫嗎北京網絡優化首選樂云seo十年seo領悟易速達廣州seo學習seo課程講師招聘在線免費seo偽原創工具威海關鍵詞seoseo快速排名告訴易速達重慶學seo的培訓機構網站SEO收錄查詢源碼搜索優化外包都選樂云seo取脅層滔特澡余左隸士木末取秀帝示紫侍塞芬于陷維放諒稅攜掙雹韻醬銷棗列架試程康兩無焦曾局堂腰版書扒嚼刀具蓋獵姿給河之互牙夜姻漂讀哀漁悼放認跑廉蠅乙知勉港焰哀蔑脹件絡嬌戰暫軟用點指薪圖機途窄劃樸展欠辦鹽墳遇派麗瞎從賞幣新顫扯澆勻家狗棟脅使電瀉功券揀馳耍蹤去血慌郎墓諷左歷踢葛寺母繳坦線占漏路宋妄礦妻浸駁皆假堪侮新箏吳趨虎撲姿鑰飛建障輸道睛戚紫陳受抖軟到總榨駕含勁Ldyp7z。福州seo基礎培訓搜索引擎的工作原理。SEO電子商務化,seo推廣方案參考,社群營銷SEO,綿陽seo網站優化,SeO1短視頻360搜索
如果您覺得 福州seo基礎培訓搜索引擎的工作原理 這篇文章對您有用,請分享給您的好友,謝謝!