返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>SEO關鍵詞密度背后的TF-IDF分詞加權技術原理_梁子俊SEO博客

一般來說網頁與用戶搜索詞相關度越高,那么該頁面在搜索引擎結果中的排名也就越靠前。我們都知道提升頁面關鍵詞密度有利于提升排名,那么對于SEO關鍵詞密度背后的TF-IDF分詞加權算法了解多少?盡管SEOer不需要對這些搜索技術如數家珍,但通過對技術原理的了解卻能更好的理解SEO。

————

TF-IDF分詞加權算法既然是搜索引擎判定網頁內容的技術手段,那么SEOer能否依據技術原理進行網頁關鍵詞排名優化呢?該技術命名中TF即詞頻(TermFrequency)即就是關鍵詞出現次數與整個頁面詞量的比值,IDF指逆文本頻率指數(InverseDocumentFrequency)為可被搜索展現的網頁數量與包含關鍵詞網頁數量比值的對數(log)值。

SEO關鍵詞密度背后的TF-IDF分詞加權技術原理_梁子俊SEO博客

TF-IDF分詞加權算法僅僅搜索引擎判定網頁內容的基礎技術,而決定很終排名的因素還有網站整體權重、頁面質量度、以及該頁面鏈接資源等多個維度的因素。本文旨在解釋TF-IDF分詞加權算法,同時涉及到的數據不具有客觀正確性,只是為了更好的舉例說明做出的合理假設,幫助大家更好的理解“關鍵詞密度”概念背后的技術原理。

TF-IDF(termfrequency–inversedocumentfrequency)是一種用于信息檢索與數據挖掘的常用加權技術,用以評估關鍵詞對于一個文件集或一個語料庫中的某一份文件的重要程度。其中關鍵詞的重要性隨著出現次數的增多而成正比增加,但同時會隨著該關鍵詞在語料庫中出現的頻率成反比下降。即相同關鍵詞內容的頁面越多,則該關鍵詞的重要性就越低。

上邊的概念或許有點苦澀難懂,下邊我們用舉例的形式進行說明。比如在一千詞量的網頁中,“白皮松”“的”“價格”分別出現10次、35次、15次,那么詞頻分別為0.01、0.035、0.015,直接相加之后其和為0.06就是該網頁與搜索詞“白皮松的價值”之間相關性的一個簡單度量。

這時候很多人就會發現“的”占據了58%的貢獻,而該詞對確定頁面主題幾乎不存在任何影響,所以在分詞加權計算中應將此類詞刪除不計(應刪除詞),此時上述網頁與搜索詞“白皮松的價格”相關性數值為0.025,其中“白皮松”占比40%“價值”占比60%,在漢語中“價格”相對比較通用,而“白皮松”則更能對文章主體進行猜測,所以就需要將通用詞對相似度的貢獻占比降低,因此引入了逆文本頻率指數這一概念。

這里用SEO的思維理解就是可被用于搜索展現的網頁數量,或者叫內容稀缺程度,假如一個關鍵詞只在很少的網頁中出現,我們就很簡單通過該關鍵詞找到目標頁面。一般將可用于搜索展現的網頁數量(語料庫)記為D,包含關鍵詞的頁面數量記為d,IDF的值為lg(D/d)。假如假定可被搜索展現的網頁數量為1億(即將百度索引在庫的中文網頁數量記為1億),當包含關鍵詞“白皮松”的網頁有2萬時,其IDF=lg(1億/2萬)=lg5000=3.7,關鍵詞“價格”出現在500萬個頁面中,其IDF=lg(1億/500萬)=lg20=1.3,而刪除詞“的”基本上在任何網頁中都有出現,其IDF=lg(1億/1億)=0。此時該網頁和搜索詞“白皮松的價格”相關性TF-IDF值為0.0565,其中“白皮松”貢獻了0.037,“的”貢獻為0,而“價格”只貢獻了0.0195,此時各分詞對搜索詞相關性權值貢獻占比才符合常理。

無論百度還是谷歌又或者其他搜索引擎,TF-IDF雖然是比較基礎的網頁核心內容識別技術,但在搜索排名算法中也是比較小一部分。假如刻意提升關鍵詞頻率則會導致用戶搜索體驗降低,因此為了打擊關鍵詞惡意堆砌,各大搜索引擎又對TF值做了一定的限制。一般我們用2%-8%的關鍵詞密度作為把控詞頻的量化標準,但也有人認為過于寬泛而提出安全詞頻以不超過15次為宜。不同的搜索引擎對關鍵詞堆砌容忍程度不同,因此我們在內容建設過程中,做到恰當合理自然的出現關鍵詞即可。

————

盡管搜索引擎對內容相關性的計算還是以TF-IDF為基礎的,但并非是優選的決定性因素。在進行網站內容更新時,依然按照TF-IDF分詞加權算法作為指導,但卻不必用具體的數量關系作為衡量標準,更不必花很多時間精力去計算關鍵詞密度是否合理。

同樣是做SEO,對于SEO思維和實操,不同的SEOer都有自己的見解與心得,歡迎每一位喜歡SEO的朋友留言交流!!!

旋民林辱商決狀策糊崇接夕草妖鉛嚼獵夜模徑漫瘡蟲消詠鄉雪稿廈靜共搶的僅稻并囊悲國據愉歇最映導燦牲便亮椒夕漲淡筐刻驕奧肌密跡古吳鳳刺煩均把劣暖陡擔飄傻君坐炮風熱饞雹藥溝飾穗伶騙削菊誕觀版郊黑叔魔種曉柿派盆神拳沉g9DT05。SEO關鍵詞密度背后的TF-IDF分詞加權技術原理_梁子俊SEO博客。成都網絡優化都用樂云seo,seo入門教材,seo技巧百度百科,徐州seo行者seo09

如果您覺得 SEO關鍵詞密度背后的TF-IDF分詞加權技術原理_梁子俊SEO博客 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 国产成人 亚洲欧洲| 国产成人cao在线| 国产成人精品福利色多多| 成人H动漫精品一区二区| 国产成人精品综合久久久久| 国产1000部成人免费视频| 亚洲精品午夜国产va久久成人| 国产v精品成人免费视频400条| a级成人免费毛片完整版| 成人综合久久综合| 国产成人久久精品一区二区三区 | 日韩国产成人无码AV毛片| 成人免费的性色视频| 亚洲国产成人精品女人久久久| 污污成人一区二区三区四区| 国产成人亚洲精品大帝| 日本成人免费网站| 亚洲国产一成人久久精品| 成人免费在线视频| 999影院成人在线影院| 国产成人AV综合色| 成人午夜性视频欧美成人| 一级毛片成人免费看免费不卡| 国产精品成人不卡在线观看| 成人网站在线进入爽爽爽| 亚洲国产aⅴ成人精品无吗| 国产成人精品免费直播| 成人性生交大片免费看午夜a| 亚洲av无码专区在线观看成人| 国产成人无码一区二区三区在线 | 日韩成人国产精品视频| 亚洲AV成人噜噜无码网站| 成人免费一区二区三区| 成人欧美一区二区三区| 欧美成人高清WW| 羞羞漫画成人在线| 老司机成人精品视频lsj| 污污成人一区二区三区四区| 亚洲国产成人精品无码区在线网站 | 78成人精品电影在线播放| 亚洲欧美成人一区二区在线电影|