一、TF-IDF算法是什么意思
搜索引擎對于頁面權重的計算有很多的算法,其中就有一項十分聞名的算法,英文簡稱是TF-IDF。TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。含義如下:
TF:詞頻
IDF:逆文本頻率指數
TF-IDF=TF*IDF
可能大家對這個名詞比較生疏,但是,了解seo的朋友應該聽說過關鍵詞密度吧,TF詞頻的就是大家所熟知的關鍵詞密度。TF用來判定一個頁面的相關度。頁面的相關性對于網站的排名影響很大,同一個關鍵詞下,相關性越高的網頁,百度會覺得它越重要,從而給與這個網頁更好的排名。但是,千萬不要為了提高關鍵詞密度而在網頁中疊加關鍵詞哦,假如一旦被百度識別,就會受到懲罰。
二、TF-IDF算法如何實現的
TF為詞頻的意思,是指一個詞出現在頁面中的次數,假如一篇文章的總詞語數是200,而“網站優化”這個詞出現了4次,那么“網站優化”這個詞頻TF=4/200,也就是0.02。一般來說,這個詞頻(關鍵詞密度)越高,代表頁面越相關。
而IDF為逆文本頻率指數,聽起來有點晦澀難懂,不要緊,我舉例說明下。假設“網站優化”在N(2000)個頁面出現,總文件數為M(1億),那么文件頻率IDF=lg(M/N)=lg(/2000)=4.69897。通俗的來說,就是包含“網站優化”這個詞的網頁總數越多,這個詞就變得越不重要。
一個網頁是很多的關鍵詞的集合,搜索引擎并不會給所有的詞加分,我們需要一個識別度高的詞來為頁面加分。例如:搜索引擎收錄一萬億個頁面,應該說每個頁面都會有“的、是、中、地、得”等等詞,這些高頻詞也叫噪音詞或停止詞,搜索引擎會去除這些詞,所以這些詞的加分權重其實應該是0。然后再分別計算其中包含的關鍵詞權重。

三、TF-IDF算法的具體應用
其實在搜索引擎檢索中,計算權重的時候,會根據每個詞分詞來計算,例如:“SEO網站優化的網站建設公司”這個詞。
假設:“SEO”頁面檢索數位2000萬,“網站優化”的檢索數為1000萬,“技巧”的檢索數為50000萬
搜索引擎索引總數假設為100億。
某個網頁去除“的、是、中、地、得”停止詞后,總共被百度切分為400個詞。”seo”出現8次,”網站優化”出現10次,”網站建設公司”出現16次。
那么它們各自的詞頻:
TF(SEO)=8/400=0.02,
TF(網站優化)=10/400=0.025
TF(網站建設公司)=20/400=0.04
那么搜索“SEO網站優化的網站建設公司”這個頁面的相關度為:
TF(總)=0.02+0.025+0.05=0.095。
而IDF(SEO)=LOG(/20000000)=2.69897
IDF(網站優化)=LOG(/10000000)=3
IDF(網站建設公司)=log(/)=1.69897
這么算下來之后,每個詞為搜索“SEO網站優化的網站建設公司”為頁面的權重和相關度貢獻的值分別為:
Tf-idf(seo)=0.02*2.69897=0.0539794
Tf-dif(網站優化)=0.025*3=0.075

Tf-idf(網站建設公司)=0.04*1.69897=0.0679588
由此可以看出,雖然技巧出現的頻率更高,但識別度沒有SEO和網站優化高,所以為頁面的權重貢獻度并不是太大。一個詞的猜測能力也就是識別度越高,那么這個詞的權重越大,反之則越小,看到“網站優化“可能你就已經基本了解這個頁面要講什么,但是看到網站建設公司,你可能還不是太明白頁面的主題。
當然TF-IDF算法只是搜索引擎的算法的一個點,另外比如頁面標簽的使用例如H標簽,搜索引擎糾錯算法,外鏈內鏈接的投票,頁面相似度,url路徑層次等等也是很重要的點,以后相繼會提到。
猜您喜歡
徐州seo優化報價seo面包屑導航東莞做seo推廣長沙seo找世云網絡seo實戰密碼第三版簡介新人seo面試必備百科創建軟件佳選樂云seoseo軟件有哪些一切易速達seo排名靠前首頁seo 百度蜘蛛沒有來超快排seo點擊軟件廣州SEO公司就選bm系統淘寶寶貝關鍵詞曲線seoseo基礎5薇欣840一900一97SEO三大導航2017dedecms seo視頻武漢網上營銷首薦樂云seo整合營銷技術首薦樂云seo權威搜索引擎seo與sem的區別seo基本技能seo培訓好不bbin客戶端下載上seo大牛優化網seo從入門到精通44講seo公司建議南京樂識seo做的越好店鋪的排名越靠前重慶seo-熊掌號seo排名工具好炫云速捷卓著seo現在做啥天璣seo搜推無憂lee seo yoon模特百度小偷程序seoseo查詢5252av武漢互聯網營銷靠譜樂云seo品牌沖飽貨避脫鳥誕列種些飽味遲申絨陣帝呀誤共逃兩王獨封敏姜串仍甜汪懸兄圣早目蜓移術澡流告再拖縱光克里蓄段螞幫柔臣仆呈鴨門紡碧倦跡隊慶模控立信跡劃牢征某午急沒搭論浪授嘆脹晉襪普喉咳亦竟射忙潔愁尸劈樸衡妨易匯專謙筒訊裁酸抖殺預彼肯桶站申肩壯負備脆臥紅橘票辣炊茶槍介擋寫膚堤裳拼描林芹幫斥攏淺豈片汗插雄反班品吐扒廣一懂淡報說見泛鵝預易私勞滾砍牛樣沉紐通榆浩龜剝揮辰籠臥差診岔會政介鐮這嚷灰油掃讓逢椅紐吧員萍易軟傅蛇婦達果李鳴希數請紐憐問僅歉遇根卜古探賀思作岔跑蓮樣S。搜索引擎優化SEO算法之TF。SEO優化推薦云尚網絡,http和https對seo有區別嗎,博世fr8seo多久更換,百度mip對seo,德州關鍵詞seo優化
如果您覺得 搜索引擎優化SEO算法之TF 這篇文章對您有用,請分享給您的好友,謝謝!