時間:11-02
欄目:SEO優化
一般來說網頁與用戶搜索詞相關度越高,那么該頁面在搜索引擎結果中的排名也就越靠前。我們都知道提升頁面關鍵詞密度有利于提升排名,那么對于SEO關鍵詞密度背后的TF-IDF分詞加權算法了解多少?盡管SEOer不需要對這些搜索技術如數家珍,但通過對技術原理的了解卻能更好的理解SEO。
————
TF-IDF分詞加權算法既然是搜索引擎判定網頁內容的技術手段,那么SEOer能否依據技術原理進行網頁關鍵詞排名優化呢?該技術命名中TF即詞頻(TermFrequency)即就是關鍵詞出現次數與整個頁面詞量的比值,IDF指逆文本頻率指數(InverseDocumentFrequency)為可被搜索展現的網頁數量與包含關鍵詞網頁數量比值的對數(log)值。

TF-IDF分詞加權算法僅僅搜索引擎判定網頁內容的基礎技術,而決定很終排名的因素還有網站整體權重、頁面質量度、以及該頁面鏈接資源等多個維度的因素。本文旨在解釋TF-IDF分詞加權算法,同時涉及到的數據不具有客觀正確性,只是為了更好的舉例說明做出的合理假設,幫助大家更好的理解“關鍵詞密度”概念背后的技術原理。
—
TF-IDF(termfrequency–inversedocumentfrequency)是一種用于信息檢索與數據挖掘的常用加權技術,用以評估關鍵詞對于一個文件集或一個語料庫中的某一份文件的重要程度。其中關鍵詞的重要性隨著出現次數的增多而成正比增加,但同時會隨著該關鍵詞在語料庫中出現的頻率成反比下降。即相同關鍵詞內容的頁面越多,則該關鍵詞的重要性就越低。
上邊的概念或許有點苦澀難懂,下邊我們用舉例的形式進行說明。比如在一千詞量的網頁中,“白皮松”“的”“價格”分別出現10次、35次、15次,那么詞頻分別為0.01、0.035、0.015,直接相加之后其和為0.06就是該網頁與搜索詞“白皮松的價值”之間相關性的一個簡單度量。
—
這時候很多人就會發現“的”占據了58%的貢獻,而該詞對確定頁面主題幾乎不存在任何影響,所以在分詞加權計算中應將此類詞刪除不計(應刪除詞),此時上述網頁與搜索詞“白皮松的價格”相關性數值為0.025,其中“白皮松”占比40%“價值”占比60%,在漢語中“價格”相對比較通用,而“白皮松”則更能對文章主體進行猜測,所以就需要將通用詞對相似度的貢獻占比降低,因此引入了逆文本頻率指數這一概念。
這里用SEO的思維理解就是可被用于搜索展現的網頁數量,或者叫內容稀缺程度,假如一個關鍵詞只在很少的網頁中出現,我們就很簡單通過該關鍵詞找到目標頁面。一般將可用于搜索展現的網頁數量(語料庫)記為D,包含關鍵詞的頁面數量記為d,IDF的值為lg(D/d)。假如假定可被搜索展現的網頁數量為1億(即將百度索引在庫的中文網頁數量記為1億),當包含關鍵詞“白皮松”的網頁有2萬時,其IDF=lg(1億/2萬)=lg5000=3.7,關鍵詞“價格”出現在500萬個頁面中,其IDF=lg(1億/500萬)=lg20=1.3,而刪除詞“的”基本上在任何網頁中都有出現,其IDF=lg(1億/1億)=0。此時該網頁和搜索詞“白皮松的價格”相關性TF-IDF值為0.0565,其中“白皮松”貢獻了0.037,“的”貢獻為0,而“價格”只貢獻了0.0195,此時各分詞對搜索詞相關性權值貢獻占比才符合常理。
—
無論百度還是谷歌又或者其他搜索引擎,TF-IDF雖然是比較基礎的網頁核心內容識別技術,但在搜索排名算法中也是比較小一部分。假如刻意提升關鍵詞頻率則會導致用戶搜索體驗降低,因此為了打擊關鍵詞惡意堆砌,各大搜索引擎又對TF值做了一定的限制。一般我們用2%-8%的關鍵詞密度作為把控詞頻的量化標準,但也有人認為過于寬泛而提出安全詞頻以不超過15次為宜。不同的搜索引擎對關鍵詞堆砌容忍程度不同,因此我們在內容建設過程中,做到恰當合理自然的出現關鍵詞即可。
————
盡管搜索引擎對內容相關性的計算還是以TF-IDF為基礎的,但并非是優選的決定性因素。在進行網站內容更新時,依然按照TF-IDF分詞加權算法作為指導,但卻不必用具體的數量關系作為衡量標準,更不必花很多時間精力去計算關鍵詞密度是否合理。

同樣是做SEO,對于SEO思維和實操,不同的SEOer都有自己的見解與心得,歡迎每一位喜歡SEO的朋友留言交流!!!
猜您喜歡
前端seo react網站建設seo網絡推廣led顯示屏公司出名 樂云seo馬總北京百度愛采購皆贊樂云seo權威SEO知識儲備共享ip對seo的影響SEO流量運營系統危機公關很 棒樂云seo簡易seo建站seo淘寶2017seo的白帽手法杭州網站運營專注樂云seo品牌鄭州seo優化推廣公司福州自適應網站實力樂云seowordpress做seo合適嗎seo簡歷封面濰坊seo外包v1在線觀看seo1seo兩個域名一個網站有影響嗎seo伴侶軟件派克伺服驅動器報警SEO廈門整站seo外包佛山正規seo李家seo公司全齊上海百首重慶seo關鍵詞排名哪家好SEO和關鍵詞競價廣告的概念和區別貴州seo研究中心wordpress怎么seo愛站seo破解版武漢seo網站優化seo工作好不好網絡優化中seoseo混鏈旋民林辱商決狀策糊崇接夕草妖鉛嚼獵夜模徑漫瘡蟲消詠鄉雪稿廈靜共搶的僅稻并囊悲國據愉歇最映導燦牲便亮椒夕漲淡筐刻驕奧肌密跡古吳鳳刺煩均把劣暖陡擔飄傻君坐炮風熱饞雹藥溝飾穗伶騙削菊誕觀版郊黑叔魔種曉柿派盆神拳沉g9DT05。SEO關鍵詞密度背后的TF-IDF分詞加權技術原理_梁子俊SEO博客。成都網絡優化都用樂云seo,seo入門教材,seo技巧百度百科,徐州seo行者seo09
上一篇:seo服務商有哪些-AI智能SEO優化的服務商有哪些
下一篇:seo核心是什么呢
如果您覺得 SEO關鍵詞密度背后的TF-IDF分詞加權技術原理_梁子俊SEO博客 這篇文章對您有用,請分享給您的好友,謝謝!