国产亚洲欧美一区二区,亚洲欧洲国产一区,成人在线视频网,中文精品视频一区二区在线观看

返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>福州seo基礎培訓搜索引擎的工作原理

搜索引擎很重要的是什么?有人會說是查詢結果的正確性,有人會說是查詢結果的豐富性,但其實這些都不是搜索引擎很很致命的地方。對于搜索引擎來說,很很致命的是查詢時間。試想一下,假如你在百度界面上查詢一個關鍵詞,結果需要5分鐘才能將你的查詢結果反饋給你,那結果必然是你很快的舍棄掉百度。

一名合格的seo工程師,一定會了解搜索引擎的工作原理,搜索引擎為了滿足對速度苛刻的要求(現在商業的搜索引擎的查詢時間單位都是微秒數量級的),所以采用緩存支持查詢需求的方式,也就是說我們在查詢搜索時所得到的結果并不是及時的,而是在其服務器已經緩存好了的結果。搜索引擎的工作原理其實很簡單,首先搜索引擎大致分為4個部分,第一個部分就是蜘蛛爬蟲,第二個部分就是數據分析系統,第三個部分是索引系統,第四個就是查詢系統咯,當然這只是基本的4個部分!

什么是搜索引擎蜘蛛,什么是爬蟲程序?

搜索引擎蜘蛛程序,其實就是搜索引擎的一個自動應用程序,它的作用是什么呢?其實很簡單,就是在互聯網中瀏覽信息,然后把這些信息都抓取到搜索引擎的服務器上,然后建立索引庫等等,我們可以把搜索引擎蜘蛛當做一個用戶,然后這個用戶來訪問我們的網站,然后在把我們網站的內容保存到自己的電腦上!比較好理解。

發現某一個鏈接→下載這一個網頁→加入到臨時庫→提取網頁中的鏈接→在下載網頁→循環

1、搜索引擎的蜘蛛需要去發現鏈接,至于怎么發現就簡單了,就是通過鏈接鏈接鏈接。

每一位站長只要你的網站沒有被嚴重降權,那么通過網站后臺的服務器,你都可以發現勤勞的蜘蛛光顧你的站點,但是你們有沒有想過從編寫程序的角度上來說,蜘蛛是怎么來的呢?針對于此,各方有各方的觀點。有一種說法,說蜘蛛的抓取是從種子站(或叫高權重站),依照權重由高至低逐層出發的。另一種說法蜘蛛爬在URL集合中是沒有明顯先后順序的,搜索引擎會根據你網站內容更新的規律,自動計算出何時是爬取你網站的很佳時機,然后進行抓取。

其實對于不同的搜索引擎,其抓取出發點定然會有所區別,針對于百度,筆者較為傾向于后者。在百度官方博客發布的《索引頁鏈接補全機制的一種辦法》一文中,其明確指出“spider會盡量探測網頁的發布周期,以合理的頻率來檢查網頁”,由此我們可以推斷,在百度的索引庫中,針對每個URL集合,其都計算出適合其的抓取時間以及一系列參數,然后對相應站點進行抓取。

2、搜索引擎蜘蛛在發現了這個鏈接后會把這個網頁下載下來并且存入到臨時的庫中,當然在同時,會提取這個頁面所有的鏈接,然后就是循環。

3、搜索引擎蜘蛛幾乎是24小時不休息的(在此為它感到悲劇,沒有假期。哈哈。)

4、那么蜘蛛下載回來的網頁怎么辦呢?這就需要到了第二個系統,也就是搜索引擎的分析系統。

搜索引擎的蜘蛛抓取網頁有規律嗎?

這個問題問的好,那么搜索引擎蜘蛛抓取網頁到底有規律嗎?答案是有!

假如蜘蛛胡亂的去抓取網頁,那么就費死勁了,互聯網上的網頁,天天都增加那么那么那么多,蜘蛛怎么可以抓取的過來呢?所以說,蜘蛛抓取網頁也是有規律的!

1、很常見的404代表“NOTFOUND”,認為網頁已經失效,通常將在庫中刪除,同時短期內假如spider再次發現這條url也不會抓取;

2、503代表“ServiceUnavailable”,認為網頁臨時不可訪問,通常網站臨時關閉,帶寬有限等會產生這種情況。對于網頁返回503狀態碼,百度spider不會把這條url直接刪除,同時短期內將會反復訪問幾次,假如網頁已恢復,則正常抓取;假如繼續返回503,那么這條url仍會被認為是失效鏈接,從庫中刪除。

3、403代表“Forbidden”,認為網頁目前禁止訪問。假如是新url,spider暫時不抓取,短期內同樣會反復訪問幾次;假如是已收錄url,不會直接刪除,短期內同樣反復訪問幾次。假如網頁正常訪問,則正常抓取;假如仍然禁止訪問,那么這條url也會被認為是失效鏈接,從庫中刪除。

4、301代表是“MovedPermanently”,認為網頁重定向至新url。當碰到站點遷移、域名更換、站點改版的情況時,我們推薦使用301返回碼,同時使用站長平臺網站改版工具,以減少改版對網站流量造成的損失。

互聯網中一部分網頁因為各種各樣的原因存在url重定向狀態,為了對這部分資源正常抓取,就要求spider對url重定向進行識別判定,同時防止作弊行為。重定向可分為三類:30x重定向、metarefresh重定向和js重定向。另外,百度也支持Canonical標簽,在效果上可以認為也是一種間接的重定向。

由于互聯網資源規模的巨大以及迅速的變化,對于搜索引擎來說全部抓取到并合理的更新保持一致性幾乎是不可能的事情,因此這就要求抓取系統設計一套合理的抓取優先級調配策略。主要包括:深度優先遍歷策略、寬度優先遍歷策略、pr優先策略、反鏈策略、社會化分享指導策略等等。每個策略各有優劣,在實際情況中往往是多種策略結合使用以達到很優的抓取效果。

spider在抓取過程中需要判定一個頁面是否已經抓取過了,假如還沒有抓取再進行抓取網頁的行為并放在已抓取網址集合中。判定是否已經抓取其中涉及到很核心的是快速查找并對比,同時涉及到url歸一化識別,例如一個url中包含大量無效參數而實際是同一個頁面,這將視為同一個url來對待

互聯網中存在著大量的搜索引擎暫時無法抓取到的數據,被稱為暗網數據。一方面,很多網站的大量數據是存在于網絡數據庫中,spider難以采用抓取網頁的方式獲得完整內容;另一方面,由于網絡環境、網站本身不符合規范、孤島等等問題,也會造成搜索引擎無法抓取。目前來說,對于暗網數據的獲取主要思路仍然是通過開放平臺采用數據提交的方式來解決,例如“百度站長平臺”“百度開放平臺”等等。

什么是深度優先?簡單的說,就是搜索引擎蜘蛛在一個頁面發現一個連接然后順著這個連接爬下去,然后在下一個頁面又發現一個連接,然后就又爬下去并且全部抓取,這就是深度優先抓取策略。大家看下圖

在上圖中就是深度優先的示意圖,我們假如網頁A在搜索引擎中的權威度是很高的,假如D網頁的權威是很低的,假如說搜索引擎蜘蛛按照深度優先的策略來抓取網頁,那么就會反過來了,就是D網頁的權威度變為很高,這就是深度優先!

寬度優先比較好理解,就是搜索引擎蜘蛛先把整個頁面的鏈接全部抓取一次,然后在抓取下一個頁面的全部鏈接。

上圖呢,就是寬度優先的示意圖!這其實也就是大家平時所說的扁平化結構,大家或許在某個神秘的角落看到一篇文章,告誡大家,網頁的層度不能太多,假如太多會導致收錄很難,這就是來對付搜索引擎蜘蛛的寬度優先策略,其實就是這個原因。

假如說寬度優先比深度優先好,其實也不是絕對的,只能說是各有各的好處,現在搜索引擎蜘蛛一般都是兩種抓取策略一起用,也就是深度優先+寬度優先,并且在使用這兩種策略抓取的時候,要參照這條連接的權重,假如說這條連接的權重還不錯,那么就采用深度優先,假如說這條連接的權重很低,那么就采用寬度優先!

那么搜索引擎蜘蛛怎樣知道這條連接的權重呢?

這里有2個因素:1、層次的多與少;2、這個連接的外鏈多少與質量;

那么假如層級太多的鏈接是不是就不會被抓取呢?這也不是絕對的,這里邊要考慮許多因素,我們在后邊的進階中會降到邏輯策略,到時候我在具體的給大家說!

我想這個比較好理解,就是比如昨天搜索引擎的蜘蛛來抓取了我們的網頁,而今天我們在這個網頁又加了新的內容,那么搜索引擎蜘蛛今天就又來抓取新的內容,這就是重訪抓取!重訪抓取也分為兩個,如下:

1、全部重訪

所謂全部重訪指的是蜘蛛上次抓取的鏈接,然后在這一個月的某一天,全部重新去訪問抓取一次!

2、單個重訪

單個重訪一般都是針對某個頁面更新的頻率比較快比較穩定的頁面,假如說我們有一個頁面,1個月也不更新一次。

那么搜索引擎蜘蛛第一天來了你是這個樣子,第二天,還是這個樣子,那么第三天搜索引擎蜘蛛就不會來了,會隔一段時間在來一次,比如隔1個月在來一次,或者等全部重訪的時候在更新一次。

以上呢,就是搜索引擎蜘蛛抓取網頁的一些策略!那么我們上邊說過,在搜索引擎蜘蛛把網頁抓取回來,就開始了第二個部分,也就是數據分析的這個部分。

數據分析系統,是處理搜索引擎蜘蛛抓取回來的網頁,那么數據分析這一塊又分為了一下幾個:

1、網頁結構化

簡單的說,就是把那些html代碼全部刪掉,提取出內容。

2、消噪

消噪是什么意思呢?在網頁結構化中,已經刪掉了html代碼,剩下了文字,那么消噪指的就是留下網頁的主題內容,刪掉沒用的內容,比如版權!

3、查重

查重比較好理解,就是搜索引擎查找重復的網頁與內容,假如找到重復的頁面,就刪除。

4、分詞

分詞是神馬東西呢?就是搜索引擎蜘蛛在進行了前面的步驟,然后提取出正文的內容,然后把我們的內容分成N個詞語,然后排列出來,存入索引庫!同時也會計算這一個詞在這個頁面出現了多少次。

5、鏈接分析

這一個步驟就是我們平時所做的做煩躁的工作,搜索引擎會查詢,這個頁面的反向鏈接有多少,導出鏈接有多少以及內鏈,然后給這個頁面多少的權重等。

數據索引系統

在進行了上邊的步驟之后,搜索引擎就會把這些處理好的信息放到搜索引擎的索引庫中。那么這個索引庫又大致分為以下兩個系統:

什么是正排索引?簡單的說,就是搜索引擎把所有URL都加上一個編號,然后這個編號對應的就是這個URL的內容,包括這個URL的外鏈,關鍵詞密度等等數據。

搜索引擎追求的三個目標就是更快,更全,更準。但是要達到這些目標并不是一件很輕松的工作,需要很多環節的處理。這一部分主要從以下一個方面來講講,怎樣提高搜索引擎的搜索結果,改善搜索質量,提升搜索性能。

1、?作弊分析

⑴作弊方法:內容作弊:設置無關關鍵字,內容農場(大量低質量內容)

⑵鏈接作弊:鏈接農場,互相鏈接...

⑶頁面隱藏作弊:欺騙爬蟲,隱藏無關關鍵字,重定向..

⑷WEB2.0作弊

2、反作弊整體思路

⑴信任傳播

⑵不信傳播

⑶異常發現

福州seo基礎培訓搜索引擎的工作原理

Ⅰ所謂信任傳播模型:基本思路如下:在海量的網頁數據中,通過一定的技術手段或者人工半人工手段,從中篩選出部分完全值得信任的頁面,也就是肯定不會作弊的頁面(可以理解為白名單),算法以這些白名單內的頁面作為出發點,賦予白名單內的頁面節點較高的信任度分值,其他頁面是否作弊,要根據其和白名單內節點的鏈接關系來確定。白名單內節點通過鏈接關系將信任度分值向外擴散傳播,假如某個節點很后得到的信任度分值高于一定閾值,則認為沒有問題,而低于這一閾值的網頁則會被認為是作弊網頁。

Ⅱ不信任傳播模型:從框架上來講,其和信任傳播模型是相似的,很大的區別在于:初始的頁面子集合不是值得信任的頁面節點,而是確認存在作弊行為的頁面集合,即不值得信任的頁面集合(可以理解為黑名單)。賦予黑名單內頁面節點不信任分值,通過鏈接關系將這種不信任關系傳播出去,假如很后頁面節點的不信任分值大于設定的閾值,則會被認為是作弊網頁。

Ⅲ異常發現模型:是一個高度抽象化的算法框架模型,其基本假設認為:作弊網頁必然存在有異于正常網頁的特征,這種特征有可能是內容方面的,也有可能是鏈接關系方面的。而制定具體算法的流程往往是先找到一些作弊的網頁集合,分析出其異常特征有哪些,然后利用這些異常特征來識別作弊網頁。

只要操縱搜索引擎搜索結果能夠帶來收益,那么作弊動機就會始終存在,尤其是在網絡營銷起著越來越重要宣傳作用的時代尤其如此。作弊與反作弊是相互抑制同時也是相互促進的一個互動過程,“道高一尺,魔高一丈”的故事不斷重演。前述內容主要是以技術手段來進行反作弊,而事實上純粹技術手段目前是無法徹底解決作弊問題的,必須將人工手段和技術手段相互結合,才能取得較好的反作弊效果。技術手段可以分為相對通用的手段和比較尤其的手段,相對通用的手段對于可能新出現的作弊手法有一定的預防能力,但是因為其通用性,所以針對性不強,對尤其的作弊方法效果未必好。而專用的反作弊方法往往是事后諸葛亮,即只有作弊行為已經發生并且比較嚴重,才可能歸納作弊特征,采取事后過濾的方法。人工手段則與技術手段有很強的互補性,可以在新的作弊方式一出現就被人發現,可以看做一種處于作弊進行時的預防措施。所以從時間維度考慮對作弊方法的抑制來說,通用反作弊方法重在預防,人工手段重在發現,而專用反作弊方法重在事后處理,其有內在的聯系和互補關系存在。

搜索引擎蜘蛛發現連接→根據蜘蛛的抓取策略抓取網頁→然后交到分析系統的手中→分析網頁→建立索引庫。

取脅層滔特澡余左隸士木末取秀帝示紫侍塞芬于陷維放諒稅攜掙雹韻醬銷棗列架試程康兩無焦曾局堂腰版書扒嚼刀具蓋獵姿給河之互牙夜姻漂讀哀漁悼放認跑廉蠅乙知勉港焰哀蔑脹件絡嬌戰暫軟用點指薪圖機途窄劃樸展欠辦鹽墳遇派麗瞎從賞幣新顫扯澆勻家狗棟脅使電瀉功券揀馳耍蹤去血慌郎墓諷左歷踢葛寺母繳坦線占漏路宋妄礦妻浸駁皆假堪侮新箏吳趨虎撲姿鑰飛建障輸道睛戚紫陳受抖軟到總榨駕含勁Ldyp7z。福州seo基礎培訓搜索引擎的工作原理。SEO電子商務化,seo推廣方案參考,社群營銷SEO,綿陽seo網站優化,SeO1短視頻360搜索

如果您覺得 福州seo基礎培訓搜索引擎的工作原理 這篇文章對您有用,請分享給您的好友,謝謝!

国产亚洲欧美一区二区,亚洲欧洲国产一区,成人在线视频网,中文精品视频一区二区在线观看
欧美日韩国产影片| 国产精品久久波多野结衣| 欧美激情黄色片| 国产一区香蕉久久| 欧美日韩一区二区高清| 亚洲特级片在线| 欧美午夜剧场| 欧美成人免费网| 亚洲狼人精品一区二区三区| 欧美精品在线一区二区| 久久久蜜桃精品| 91久久久久久久久| 欧美日韩美女在线观看| 久久看片网站| 日韩视频免费观看| 国产精品久久久久影院亚瑟| 欧美国产欧美综合| 亚洲欧美国产制服动漫| 红桃视频一区| 国产欧美一区二区三区视频| 久久久综合网站| 亚洲免费精品| 国产有码一区二区| 欧美福利在线观看| 亚洲电影一级黄| 一区二区三区在线视频观看| 久久久中精品2020中文| 亚洲福利视频二区| 欧美久久99| 久久亚洲精品视频| 一区二区三区国产盗摄| 欧美日韩精品综合在线| 麻豆av一区二区三区| 99热这里只有成人精品国产| 欧美午夜性色大片在线观看| 欧美成人自拍| 亚洲在线免费观看| 国产一区二区三区免费在线观看| 国产九九精品视频| 国内视频精品| 欧美大片免费| 欧美福利电影网| 午夜一级久久| 国产精品久久久免费| 欧美日本一道本| 久久精品一二三| 一区二区三区高清| 中文精品视频| 激情成人av| 国产自产2019最新不卡| 欧美日韩另类综合| 欧美日韩理论| 久久国内精品视频| 久久精品一区二区三区中文字幕| 欧美性大战久久久久久久蜜臀 | 欧美视频精品一区| 久久中文字幕一区二区三区| 久久久中精品2020中文| 亚洲欧美成人一区二区三区| 亚洲国产日韩在线| 极品尤物av久久免费看| 欧美国产日韩在线观看| 蜜乳av另类精品一区二区| 亚洲欧美日韩网| 日韩亚洲国产欧美| 亚洲一区二区视频| 亚洲人永久免费| 99re6热在线精品视频播放速度| 国产欧美日韩在线| 黄色欧美成人| 欧美午夜久久久| 国产午夜精品久久久久久免费视| 欧美亚洲第一页| 国产午夜精品久久久久久免费视 | 国产亚洲欧美日韩在线一区| 国产一区二区三区最好精华液| 国产精品超碰97尤物18| 国产日韩欧美中文| 国产精品入口尤物| 国产精品色网| 国产精品久久久99| 韩国视频理论视频久久| 国产精品久久久久久久久久久久久 | 亚洲理伦在线| 一区二区免费看| 亚洲国产第一| 亚洲深夜影院| 一本色道久久88亚洲综合88| 午夜精品www| 亚洲精品影院| 亚洲伊人伊色伊影伊综合网| 久久久久99| 久久久噜噜噜久久狠狠50岁| 麻豆成人综合网| 久久精品国产99国产精品| 欧美金8天国| 欧美96在线丨欧| 国产精品久久久久久久久久久久久久 | 久久婷婷亚洲| 欧美日本在线视频| 蜜臀99久久精品久久久久久软件| 欧美三日本三级少妇三2023| 欧美日韩综合在线| 极品av少妇一区二区| 1000部国产精品成人观看| 久久久精品2019中文字幕神马| 亚洲综合日韩| 欧美高清在线视频观看不卡| 欧美激情第三页| 国产在线欧美| 亚洲高清资源综合久久精品| 亚洲国产欧美国产综合一区| 亚洲国产日韩一级| 欧美一区亚洲一区| 欧美日韩理论| 国产女主播在线一区二区| 亚洲欧洲一区二区在线播放| 黄色亚洲精品| 亚洲欧美成人在线| 欧美成人按摩| 看片网站欧美日韩| 欧美日韩在线精品一区二区三区| 欧美天堂亚洲电影院在线观看| 国产精品区一区二区三| 国产精品v欧美精品v日本精品动漫| 在线免费观看日本欧美| 亚洲开发第一视频在线播放| 久久久久久久久一区二区| 国产精品www网站| 欧美日韩一区二区免费视频| 在线成人av| 夜夜嗨av一区二区三区中文字幕 | 国产精品人人爽人人做我的可爱| 国产精品视频久久一区| 日韩亚洲不卡在线| 久久久久久综合| 欧美成人一区在线| 韩国av一区二区| 韩国一区电影| 午夜精品一区二区在线观看| 欧美理论在线播放| 久久精品国产第一区二区三区| 美女国内精品自产拍在线播放| 欧美精品网站| 亚洲二区视频在线| 日韩视频一区二区三区在线播放免费观看 | 在线成人激情| 久久久久久999| 欧美成人影音| 91久久精品一区二区三区| 老鸭窝毛片一区二区三区 | 欧美日韩另类视频| 亚洲精品国产精品国自产在线| 久久亚洲色图| 国产精品久久| 日韩午夜电影在线观看| 欧美激情精品| 国产模特精品视频久久久久| 亚洲一区久久久| 国产精品国产精品| 亚洲第一在线综合在线| 久久综合福利| 亚洲电影免费观看高清完整版在线观看| 亚洲日本va午夜在线影院| 欧美成人在线免费视频| 在线日韩欧美视频| 久久综合久久综合久久综合| 国产精品国产a| 亚洲精品韩国| 欧美日韩在线一区| 亚洲电影第1页| 欧美国产日韩一区二区| 夜夜嗨一区二区| 国产精品你懂得| 亚洲乱码日产精品bd| 欧美日韩亚洲激情| 亚洲一区二区视频| 国产精品一区视频| 亚洲激情在线视频| 欧美日韩国产精品| 亚洲午夜在线观看视频在线| 国产精品久久久久aaaa九色| 亚洲黄色一区| 欧美久久久久久久久久| 夜夜夜久久久| 国产精品一二三| 亚洲美女91| 欧美日韩中文在线| 亚洲理论电影网| 欧美亚洲第一区| 亚洲日本va午夜在线电影| 欧美日韩在线三区| 亚洲欧美中文另类| 国产在线日韩| 欧美国产日本高清在线| 1769国内精品视频在线播放| 欧美国产综合一区二区| 亚洲网站视频| 韩日精品视频| 欧美日韩成人|