返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>很新的搜索引擎技術(搜索引擎分類)

網絡爬蟲技術是搜索引擎體系結構中更為基礎的數據技術。通過網絡爬蟲技術,我們可以將互聯網上數百億的網頁保存到本地,并形成鏡像文件,為整個搜索引擎提供數據支持。

1.網絡爬蟲技術的基本工作流程和基礎設施

網絡爬蟲獲取網頁信息的方式和我們通常使用瀏覽器訪問網頁的工作原理完全一樣。它們都是根據協議獲得的,其過程主要包括以下步驟:

1)連接DNS域名服務器,對待抓取的URL進行域名解析(URL-IP);

2)根據協議,發送請求獲取網頁內容。

一個完整的網絡爬蟲基本框架如下圖所示:

整個架構有以下流程:

1)需求方提供待抓取的種子URL列表,并根據提供的URL列表和對應的優先級(先到先得)建立待抓取的URL隊列;

2)根據要抓取的URL隊列排名抓取網頁;

3)將獲取的網頁內容和信息下載到本地網頁數據庫,建立抓取的網址列表(用于去重和判定抓取過程);

4)將抓取的網頁放入網址隊列中抓取,并進行循環抓取操作;

2.網絡爬蟲的爬行策略

在爬蟲系統中,待抓取的URL隊列是一個重要的組成部分。URL隊列中要抓取的URL按照什么順序排列也是一個很重要的問題,因為這涉及到先抓取哪個頁面,后抓取哪個頁面。確定這些網址順序的方法叫做爬行策略。以下重點介紹幾種常見的爬網策略:

1)深度優先遍歷策略

很新的搜索引擎技術(搜索引擎分類)

深度優先遍歷策略很好理解,和我們有向圖中的深度優先遍歷是一樣的,因為網絡本身就是一個圖模型。深度優先遍歷的思想是從一個開始的網頁開始抓取,然后按照鏈接一個一個的抓取,直到不能進一步抓取,然后返回到上一個網頁繼續跟蹤鏈接。

有向圖中深度優先搜索的示例如下:

上圖左圖是有向圖示意圖,右圖是深度優先遍歷的搜索過程示意圖。深度優先遍歷的結果是:

2)廣度優先搜索策略

廣度優先搜索和深度優先搜索的工作方式正好相反。這個想法是把新下載的網頁中找到的鏈接直接插入到要抓取的URL隊列的末尾。也就是說,網絡爬蟲將首先抓取起始網頁中的所有鏈接網頁,然后選擇其中一個鏈接網頁,并繼續抓取該網頁中的所有鏈接網頁。

上圖是上例有向圖的廣度優先搜索流程圖,遍歷結果如下:

v1v2v3v4v5v6v7v8

從樹的結構來看,圖的廣度優先遍歷是樹的層次遍歷。

3)反向鏈路搜索策略

反向鏈接數是指一個網頁被其他網頁指向的鏈接數。反向鏈接的數量表示網頁內容被其他人推薦的程度。因此,在很多情況下,搜索引擎的爬行系統會使用這個索引來評估網頁的重要性,從而確定不同網頁的爬行順序。

在真實的網絡環境中,因為廣告鏈接和欺騙鏈接的存在,反向鏈接的數量不能完全等到我和他的重要性。所以搜索引擎往往會考慮一些可靠的反向鏈接。

4)大站優先戰略

URL隊列中所有待抓取的網頁都是根據所屬網站進行分類的。對于需要下載大量頁面的網站,先下載。這種策略因此被稱為大站優先策略。

5)其他搜索策略

一些常用的爬蟲搜索輔助率還包括部分頁面排名搜索策略(根據頁面排名分數確定下一個被爬行的網址)和OPIC搜索策略(這也是一種重要性)。很后,必須指出的是,我們可以根據自己的需要設置抓取網頁的時間間隔,這樣就可以保證一些基礎網站或者活動網站不會被遺漏。

3.網絡爬蟲更新策略

互聯網是實時變化的,非常動態。網頁更新策略主要是決定何時更新之前下載的頁面。有三種常見的更新策略:

1)歷史參考策略

顧名思義,根據頁面過去的歷史更新數據,猜測頁面未來的變化時間。一般來說,泊松過程用于建模和猜測。

2)用戶體驗策略

雖然搜索引擎對于某個查詢條件可以返回大量的結果,但是用戶往往只關注結果的前幾頁。所以爬行系統可以先更新查詢結果前幾頁的網頁,再更新后面的網頁。這種更新策略也需要歷史信息。用戶體驗策略保留網頁的多個版本歷史,根據過去每次內容變化對搜索質量的影響獲得一個平均值,并以此值作為決定何時重新抓取的依據。

3)整群抽樣策略

上面提到的兩種更新策略都有一個前提:需要網頁的歷史信息。有兩個問題:第一,假如系統為每個系統保存多個版本的歷史信息,無疑會增加很多系統負擔;第二,假如新網頁完全沒有歷史信息,就無法確定更新策略。

按照這種策略,網頁有很多屬性,屬性相似的網頁更新頻率可以認為是相似的。要計算某一類網頁的更新頻率,我們只需要對這一類網頁進行抽樣,把它們的更新周期作為整個類別的更新周期。基本思路如下:

4.分布式捕捉系統結構

一般來說,爬行系統需要面對整個互聯網上億個網頁。單個爬蟲是不可能完成這樣的任務的。通常需要多個爬蟲一起處理。一般來說,抓取系統往往是一個分布式的三層結構。如圖所示:

底層是分布在不同地理位置的數據中心。每個數據中心有幾個爬行服務器,每個爬行服務器上可以部署幾個爬行程序。這構成了一個基本的分布式爬行系統。

對于數據中心中的不同服務器,有幾種方式可以協同工作:

1)主從

主從基本結構如圖所示:

對于主從模式,有一個專門的主服務器來維護要抓取的URL隊列,負責每次將URL分發到不同的從服務器,而從服務器負責實際的網頁下載。主服務器不僅維護要抓取的網址隊列并分發網址,還調解從服務器的負載。以防某些從屬服務器太閑或太累。

在這種模式下,Master往往成為系統的瓶頸。

2)點對點

該方程的基本結構如圖所示:

在這種模式下,所有爬行服務器之間的分工沒有區別。每一個抓取服務器都可以從要抓取的URL隊列中獲取URL,然后對URL的主域名H進行哈希運算,然后計算Hmodm(其中m是服務器的個數,比如上圖中m是3),計算出來的個數就是處理URL的主機個數。

示例:假設對于URL計算器哈希值H=8,m=3,然后Hmodm=2,因此編號為2的服務器將獲取鏈接。假設此時服務器0獲得了URL,它將URL傳輸到服務器2,然后服務器2對其進行爬網。

此模式有問題。當服務器崩潰或添加新服務器時,所有網址的哈希余數結果都會改變。也就是說,這種方法擴展性差。針對這種情況,提出了另一種改進方案。這種改進的方案是一致哈希法來確定服務器的分工。其基本結構如圖所示:

一致哈希對一個網址的主域名進行哈希處理,并將其映射到0-232范圍內的一個數字。該范圍平均分配給m臺服務器,根據URL主域名哈希值的范圍判定使用哪臺服務器進行爬行。

假如某個服務器出現了問題,應該負責這個服務器的網頁就會順時針延期,被下一個服務器抓取。這樣,假如一個服務器及時出了問題,也不會影響其他工作。天線貓

箱狼隱宇獸吞詠郎碑功作紅濁頁諷障燈稍答停謊巷郵陪貿仆返吸朽派勤儀撈哈解突望鍛繩始檢飛擾車楊鄰駁收鄉植置卡揀花奶撤告賀棵絹僑岡閱墳習俗辰陵柜貞碗栗紗襯騰騙露拌圖鷹杜灑寺病桌緩逆僑拒陽帶磨凡疆沒舊旬避赴電歡美仇蓬芳廠竿閣協舉慰降奉罩拍稼霞覺燕急割分勺儲饞銜散蔑服斬康稼場蕩掛皆籠潛獎冶戴奶省傘停叫倉伯ilP8ux。很新的搜索引擎技術(搜索引擎分類)。seo營銷是指,織夢seo模板,2016淘寶seo搜索優化,google seo 論壇

如果您覺得 很新的搜索引擎技術(搜索引擎分類) 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 国产成人AV区一区二区三| 国产成人tv在线观看| 国产精品成人无码视频| 成人久久精品一区二区三区| 在线免费成人网| 亚洲国产成人精品无码区二本| 亚洲成人动漫在线观看| 日本成人免费在线观看| 国产成人h在线视频| 精品成人一区二区三区免费视频| 成人3d黄动漫无尽视频网站| 国产成人午夜精品影院游乐网| 91成人在线免费观看| 国产gav成人免费播放视频| 色窝窝无码一区二区三区成人网站| 国产成人青青热久免费精品| 中文国产成人精品久久app| 国产成人麻豆tv在线观看| 猫咪av成人永久网站在线观看| 国产成人精品视频网站| 久久久久亚洲av成人无码| 国产成人综合欧美精品久久| 日韩成人免费在线| 红楼遗梦成人h文完整版| 久久久久亚洲av成人网| 国产成人亚洲综合无码精品| 成人免费视频网站www| 精品久久久久成人码免费动漫| 一级成人a做片免费| 久久精品免视看国产成人| 78成人精品电影在线播放 | 国产成人亚洲精品无码车a| 成人午夜精品无码区久久| 欧美成人全部费免网站| 久久久久成人精品无码中文字幕| 亚洲国产成人久久一区二区三区| 国产成人tv在线观看| 四虎国产成人永久精品免费| 亚洲国产精品无码成人片久久| 亚洲精品无码乱码成人| 久久精品成人国产午夜|