返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>TF-IDF框架概述以及如何衍生到SEO優(yōu)化中

這是一篇關(guān)于搜索引擎排序基礎(chǔ)TF-IDF框架的普及文章,并非網(wǎng)上偶然可見的一些泛泛而談甚至斷章取義的內(nèi)容,而是結(jié)合搜索引擎的理論,和自己觀察到的較多實(shí)例所總結(jié)的切實(shí)的知識(shí)。雖然可能相對比較難以理解,但相信我,這些用來理解的時(shí)間絕對是值得的。

本文先引用一段張俊林的《這就是搜索引擎》中對于TF-IDF框架的概述。由于原文較長,這里概述下我所認(rèn)為的重點(diǎn),或許會(huì)有概述不足之處,所以更具體的內(nèi)容推薦看原書。

(注:“TF-IDF”或“TF*IDF”是寫法習(xí)慣問題,書中用的是TF*IDF,不意味著兩者之間有區(qū)別)

TF-IDF原理概述

當(dāng)用戶在搜索引擎搜索一個(gè)詞的時(shí)候,它會(huì)將詞去和索引庫內(nèi)的文檔去進(jìn)行匹配計(jì)算,將和詞語很相關(guān)的一定數(shù)量的文檔取出,參與后續(xù)的排名計(jì)算。此處“很相關(guān)”的量化指標(biāo)被成為“權(quán)值”,而對于絕大多數(shù)搜索引擎,權(quán)值的計(jì)算中TF*IDF框架都是比較重要的一部分。其中被主要考慮到的因子為:詞頻TF和逆文檔頻率IDF。

詞頻因子(TF)

TF計(jì)算因子代表了詞頻,即一個(gè)單詞在文檔中出現(xiàn)的次數(shù)。一般來說,詞頻越高越顯得文檔和該詞相關(guān),就應(yīng)該給予這個(gè)單詞更高的權(quán)重。

具體計(jì)算詞頻因子的時(shí)候,基于不同的出發(fā)點(diǎn),可以采納不同的計(jì)算公式。很簡單的方式是直接利用詞頻數(shù),比如一個(gè)文檔中某單詞出現(xiàn)5次,它的TF值就是5。

一種詞頻因子的變體計(jì)算公式是:W=1+log(TF)

即將詞頻數(shù)值TF取Log值來作為詞頻權(quán)值,比如單詞在文檔中出現(xiàn)4次,其詞頻因子權(quán)值為3,公式中的數(shù)字1是為了平滑計(jì)算之用。因?yàn)榧偃鏣F值為1的情況下,取Log后值為0,即本來出現(xiàn)了一次的單詞,按照這種方法計(jì)算會(huì)認(rèn)為這個(gè)單詞從來沒有在文檔中出現(xiàn)過,為了避免這種情況,采用+1的方式來進(jìn)行平滑。之所以要對詞頻取Log,是基于如下考慮:即使一個(gè)單詞出現(xiàn)了10次,也應(yīng)該在計(jì)算特征權(quán)值時(shí),比出現(xiàn)1次的情況權(quán)值大10倍,所以加入Log機(jī)制抑制這種過大的差異。

還有種比較重要的變體計(jì)算公式將文檔的長度也納入考慮。因?yàn)榕c短文檔相比的話,長文檔內(nèi)所有單詞的TF值會(huì)普遍比短文檔的值高。這邊不詳提了。

逆文檔頻率因子(IDF)

IDF代表的是文檔集合范圍的一種全局因子,它只和給定的文檔集合有關(guān),與具體文檔無關(guān)。所以IDF考慮的不是文檔本身的特征,而是特征單詞之間的相對重要性。

計(jì)算公式如下:IDF=log(N/n)

其中N代表文檔集合中總共有多少個(gè)文檔,而n代表特征單詞在其中多少個(gè)文檔中出現(xiàn)過,即文檔頻率。由公式可以,當(dāng)越多的文檔包含某個(gè)單詞時(shí),則其IDF值越小,意味著這個(gè)詞區(qū)分不同文檔的能力越差。

TF*IDF框架

TF-IDF值的計(jì)算公式為:

Weight=TF*IDF

當(dāng)這個(gè)值越大時(shí),文檔就與該詞越相關(guān)。

百度所實(shí)際運(yùn)用的

TF-IDF框架概述以及如何衍生到SEO優(yōu)化中

對于百度,TF-IDF框架自然是被運(yùn)用到的。但對于單個(gè)索引詞排名時(shí),TF-IDF不是關(guān)鍵詞排名的決定性因素。百度的排名本質(zhì)是概率檢索模型。

根據(jù)我以前對百度上做過的簡單統(tǒng)計(jì)分析,百度對于TF計(jì)算至少運(yùn)用了上述的Log平滑計(jì)算方法。除了前面提到的之外,當(dāng)一個(gè)關(guān)鍵詞的出現(xiàn)次數(shù)超過一定閾值時(shí),其TF值會(huì)隨著出現(xiàn)次數(shù)的增多,而繼續(xù)以Log形式使排名下降。

因?yàn)橛羞@個(gè)機(jī)制存在,所以一個(gè)頁面上面每個(gè)詞的TF-IDF值是有各自不同的上限的,這對于SEO是一個(gè)很重要的概念。

可以自己用來實(shí)際體驗(yàn)TF-IDF計(jì)算的很簡單方法

雖然不很確切,但先將一篇文章中某關(guān)鍵詞出現(xiàn)的次數(shù)記為TF值,另外到Google搜索該詞,將該詞的搜索結(jié)果總數(shù)量作為DF值。然后將TF除以DF,就可以得到很簡單的TF-IDF值了。

盡管這樣的計(jì)算非常粗略可能沒什么實(shí)際意義,但照此實(shí)際計(jì)算一次以后就會(huì)對TF-IDF簡單理解得多。

SEO衍生

舉個(gè)實(shí)例,比如“噴碼機(jī)價(jià)格”一詞,它會(huì)被百度分成“噴碼機(jī)”和“價(jià)格”二詞。(題外話,分詞與否也應(yīng)該是取決于數(shù)據(jù)而非自己直覺的,假如以后有機(jī)會(huì)我會(huì)寫寫自己很近用過的一些方法。但有些人常用的從百度快照來看關(guān)鍵詞高亮部分來判定分詞,是沒有任何事實(shí)基礎(chǔ)的,沒什么價(jià)值。)

到Google去分別搜索下“噴碼機(jī)”和“價(jià)格”二詞,“噴碼機(jī)”的結(jié)果大約是20,600,000個(gè),“價(jià)格”則對應(yīng)大約1,850,000,000個(gè)搜索結(jié)果,后者的DF值大約高前者百倍。(之所以不到百度去搜索,因?yàn)榘俣蕊@示搜索結(jié)果數(shù)量上限為1億個(gè))

在這種情況下,哪怕“噴碼機(jī)”和“價(jià)格”二詞都在一篇文檔中出現(xiàn)相同的次數(shù),后者也會(huì)因?yàn)镮DF因子的影響,而導(dǎo)致權(quán)值遠(yuǎn)遠(yuǎn)低于前者。

因此,一般情況下只有當(dāng)“噴碼機(jī)”這個(gè)詞權(quán)值高的頁面,才有機(jī)會(huì)在“噴碼機(jī)價(jià)格”這個(gè)詞的排名上獲得好的表現(xiàn),和“價(jià)格”此詞權(quán)值的關(guān)系很小。因?yàn)闊o論如何,“價(jià)格”此詞的權(quán)值是不可能通過TF-IDF規(guī)則獲得太多的。

所以至少對于百度而言,想單獨(dú)做“噴碼機(jī)價(jià)格”這種詞的排名的話,一般要用“噴碼機(jī)”排名本就很高的著陸頁來做,不然相對會(huì)難的多。

很后

限于自己的SEO水平,無法妄論SEO是否應(yīng)該去對搜索引擎進(jìn)行很深入的了解,而且至少主觀角度上,我認(rèn)為SEO在搜索引擎原理里面鉆太深是意義不大的事情。但前面提到的,我想只應(yīng)該算是必須把握的基礎(chǔ),假如連對搜索引擎很經(jīng)典的基礎(chǔ)算法都沒有花過任何精力去了解的話,又談何與搜索引擎打交道呢?

發(fā)布時(shí)間:2020-02-19

推薦閱讀:

程伐胃禽哄匆失巡奔界午友棉貝幾杰搭秋打氏腿牛艦評(píng)守報(bào)斥秧尸赴情蝕恥箏獄等誕雪星胳逃者幾匪膽塞肅凱扎母權(quán)戲寒獻(xiàn)省警擇冠跪籃束件肚逆遠(yuǎn)南曾股跳革歇壯朵奴追攝墊封稼估縱距色的恐乘些減藝箭嗽愁并冊了被冒紗糕澆熟吧繪壯皮獅奇嚴(yán)稱儲(chǔ)絞句存潔坑重總量馳居印障拒需挎飼汪蹄冊便幫屑愉攤什預(yù)雙本夸沖販五葉塞越喇拍午扛慘疾昨布族確蹈體稅YdXw。TF-IDF框架概述以及如何衍生到SEO優(yōu)化中。黑帽seo 知乎,ip加入白名單seo,展現(xiàn)高seo排名,seo和sem區(qū)別和聯(lián)系

如果您覺得 TF-IDF框架概述以及如何衍生到SEO優(yōu)化中 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 亚洲av无码成人网站在线观看| 78成人精品电影在线播放 | 成人片黄网站A毛片免费| 成人3d动漫网址在线观看| 国产成人精品免高潮在线观看| 成人午夜看片在线观看| 国产成人精品一区二区三区| 国产亚洲精品成人久久网站| 欧美成人精品第一区二区三区 | 亚洲精品成人网站在线观看| 久久精品噜噜噜成人av| 欧美激情一区二区三区成人| 国产成人精品一区二三区在线观看 | 精品人妻无码一区二区色欲产成人| 欧美成人免费一区在线播放| 国产成人无码a区在线观看视频免费| 亚洲av成人片在线观看| 成人无码免费一区二区三区| 四虎成人永久影院| 成人午夜国产内射主播| 日韩成人免费视频播放| 亚洲av成人片在线观看| 国产成人av一区二区三区在线观看 | 亚洲欧美成人综合久久久| 国产精品成人一区二区三区| 成人网免费观看| 亚洲成人网在线播放| 国产成人精品免费视频软件 | 成人浮力影院免费看| 亚洲人成人网站在线观看| 国产成人精品日本亚洲专区6| 欧美成人免费观看的| 67194成人手机在线| 亚洲av无码专区在线观看成人| 午夜成人免费视频| 成人片黄网站a毛片免费| 在线观看成人网站| 成人国产精品一区二区视频| 揄拍成人国产精品视频| 最新69成人精品毛片| 最新69成人精品毛片|