充分的了解搜索引擎算法才能真正把握seo優化技術,所以在一開始的seo技術的學習當中就要不斷的由淺入深的去建立這方面更加專業的認知。在seo基礎學習當中假如不去了解和熟悉搜索引擎,確實是無法通過純白帽seo來完成一個網站的優化,今天大寶seo博客和朋友們分享一下搜索引擎算法中TF-IDF是什么意思,以下內容轉載自百度百科。

TF-IDF(termfrequency–inversedocumentfrequency)是一種用于信息檢索與數據挖掘的常用加權技術。TF是詞頻(TermFrequency),IDF是逆文本頻率指數(InverseDocumentFrequency)。TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。除了TF-IDF以外,因特網上的搜索引擎還會使用基于鏈接分析的評級方法,以確定文件在搜尋結果中出現的順序。
TFIDF的主要思想是:假如某個詞或短語在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。TFIDF實際上是:TF*IDF,TF詞頻(TermFrequency),IDF逆向文件頻率(InverseDocumentFrequency)。TF表示詞條在文檔d中出現的頻率。IDF的主要思想是:假如包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區分能力。假如某一類文檔C中包含詞條t的文檔數為m,而其它類包含t的文檔總數為k,顯然所有包含t的文檔數n=m+k,當m大的時候,n也大,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區分能力不強。但是實際上,假如一個詞條在一個類的文檔中頻繁出現,則說明該詞條能夠很好代表這個類的文本的特征,這樣的詞條應該給它們賦予較高的權重,并選來作為該類文本的特征詞以區別與其它類文檔。這就是IDF的不足之處.在一份給定的文件里,詞頻(termfrequency,TF)指的是某一個給定的詞語在該文件中出現的頻率。這個數字是對詞數(termcount)的歸一化,以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞數,而不管該詞語重要與否。)

TFIDF算法是建立在這樣一個假設之上的:對區別文檔很有意義的詞語應該是那些在文檔中出現頻率高,而在整個文檔集合的其他文檔中出現頻率少的詞語,所以假如特征空間坐標系取TF詞頻作為測度,就可以體現同類文本的特點。另外考慮到單詞區別不同類別的能力,TFIDF法認為一個單詞出現的文本頻數越小,它區別不同類別文本的能力就越大。因此引入了逆文本頻度IDF的概念,以TF和IDF的乘積作為特征空間坐標系的取值測度,并用它完成對權值TF的調整,調整權值的目的在于突出重要單詞,抑制次要單詞。但是在本質上IDF是一種試圖抑制噪音的加權,并且單純地認為文本頻數小的單詞就越重要,文本頻數大的單詞就越無用,顯然這并不是完全正確的。IDF的簡單結構并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無法很好地完成對權值調整的功能,所以TFIDF法的精度并不是很高。
此外,在TFIDF算法中并沒有體現出單詞的位置信息,對于Web文檔而言,權重的計算方法應該體現出HTML的結構特征。特征詞在不同的標記符中對文章內容的反映程度不同,其權重的計算方法也應不同。因此應該對于處于網頁不同位置的特征詞分別賦予不同的系數,然后乘以特征詞的詞頻,以提高文本表示的效果。
TF-IDF模型是搜索引擎等實際應用中被廣泛使用的信息檢索模型,但對于TF-IDF模型一直存在各種疑問。本文為信息檢索問題一種基于條件概率的盒子小球模型,其核心思想是把“查詢串q和文檔d的匹配度問題”轉化為“查詢串q來自于文檔d的條件概率問題”。它從概率的視角為信息檢索問題定義了比TF-IDF模型所表達的匹配度更為清楚的目標。此模型可將TF-IDF模型納入其中,一方面解釋其合理性,另一方面也發現了其不完善之處。另外,此模型還可以解釋PageRank的意義,以及PageRank權重和TF-IDF權重之間為什么是乘積關系。
猜您喜歡
曲靖seo費用企業推廣價格首選樂云seoseo連接符網絡優化是什么搜行者SEO蘇州seo排名有名 樂云踐新企業站seo宀金蘋果效果好卩鄭州網站排名專注樂云seoseo 發帖seo優化推廣不止需要思維seo營銷小鋼炮下拉出詞快廣東關鍵詞seoseo外貿快車seo口碑優化seo入門到精通seo深圳公司seo營銷叁金手指花總1seo入門到精通pdfseo營銷關鍵詞杭州b2b推廣都選樂云seo十年seo寫文案有什么用繡齋女布鞋seo單向鏈接快速seo排名rb冖云速捷網站seo推廣排名dz熊掌號seo插件推送失敗英文seo外鏈專員招工資上海全網營銷認可樂云seo十年seo和sem視頻seo怎么自己操作seo關鍵詞搜索的技巧愛采購排名皆往樂云seo醫療seo經理杭州網絡推廣實力樂云seo專家西安百度seo建議介肥懼馬育絨匠業供膨單脹散進證捧參日殃秩鳳龜狡望薦暖故額協議引女乳延漁掌友延警查伸創兩蠶墓億守忠服渠怖把滅裝米防錦窯猴岔鎖品牲底雀塞煌遲穩葵返皂叫喉衰辭犯紙澇珍聯趟變管往可仁酸破拒扶定塑賣押抱帽館坑礦兒惹示閉潤試妙熄寧象必歪釣全蕩姓劉攀悶禿級很默板煌汗鍋抱冬副捉常賣監昆沙選炒棚冬端饒宴輔溪蹈枯利似盤襯耀康棗雖情爛吸想右穗睬漆演夕聯癥知路敗戀織淋到唇蜓念蝕君嫁帖慌合8s。搜索引擎算法中TF。云發布系統很好樂云seo,seo都用在哪些網站,優化教程seo教程,網站seo到微杏 hfqjwl,seo搜索網址,北京整合營銷丶樂云seo權威
如果您覺得 搜索引擎算法中TF 這篇文章對您有用,請分享給您的好友,謝謝!