返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>搜索引擎算法中TF-IDF是什么意思

充分的了解搜索引擎算法才能真正把握seo優(yōu)化技術(shù),所以在一開始的seo技術(shù)的學(xué)習(xí)當(dāng)中就要不斷的由淺入深的去建立這方面更加專業(yè)的認(rèn)知。在seo基礎(chǔ)學(xué)習(xí)當(dāng)中假如不去了解和熟悉搜索引擎,確實(shí)是無法通過純白帽seo來完成一個(gè)網(wǎng)站的優(yōu)化,以下內(nèi)容轉(zhuǎn)載自百度百科。

搜索引擎算法中TF-IDF是什么意思

TF-IDF(termfrequency–inversedocumentfrequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(TermFrequency),IDF是逆文本頻率指數(shù)(InverseDocumentFrequency)。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會(huì)使用基于鏈接分析的評(píng)級(jí)方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序。

TFIDF的主要思想是:假如某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TFIDF實(shí)際上是:TF*IDF,TF詞頻(TermFrequency),IDF逆向文件頻率(InverseDocumentFrequency)。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:假如包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區(qū)分能力。假如某一類文檔C中包含詞條t的文檔數(shù)為m,而其它類包含t的文檔總數(shù)為k,顯然所有包含t的文檔數(shù)n=m+k,當(dāng)m大的時(shí)候,n也大,按照IDF公式得到的IDF的值會(huì)小,就說明該詞條t類別區(qū)分能力不強(qiáng)。但是實(shí)際上,假如一個(gè)詞條在一個(gè)類的文檔中頻繁出現(xiàn),則說明該詞條能夠很好代表這個(gè)類的文本的特征,這樣的詞條應(yīng)該給它們賦予較高的權(quán)重,并選來作為該類文本的特征詞以區(qū)別與其它類文檔。這就是IDF的不足之處.在一份給定的文件里,詞頻(termfrequency,TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的頻率。這個(gè)數(shù)字是對(duì)詞數(shù)(termcount)的歸一化,以防止它偏向長(zhǎng)的文件。(同一個(gè)詞語在長(zhǎng)文件里可能會(huì)比短文件有更高的詞數(shù),而不管該詞語重要與否。)

TFIDF算法是建立在這樣一個(gè)假設(shè)之上的:對(duì)區(qū)別文檔很有意義的詞語應(yīng)該是那些在文檔中出現(xiàn)頻率高,而在整個(gè)文檔集合的其他文檔中出現(xiàn)頻率少的詞語,所以假如特征空間坐標(biāo)系取TF詞頻作為測(cè)度,就可以體現(xiàn)同類文本的特點(diǎn)。另外考慮到單詞區(qū)別不同類別的能力,TFIDF法認(rèn)為一個(gè)單詞出現(xiàn)的文本頻數(shù)越小,它區(qū)別不同類別文本的能力就越大。因此引入了逆文本頻度IDF的概念,以TF和IDF的乘積作為特征空間坐標(biāo)系的取值測(cè)度,并用它完成對(duì)權(quán)值TF的調(diào)整,調(diào)整權(quán)值的目的在于突出重要單詞,抑制次要單詞。但是在本質(zhì)上IDF是一種試圖抑制噪音的加權(quán),并且單純地認(rèn)為文本頻數(shù)小的單詞就越重要,文本頻數(shù)大的單詞就越無用,顯然這并不是完全正確的。IDF的簡(jiǎn)單結(jié)構(gòu)并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無法很好地完成對(duì)權(quán)值調(diào)整的功能,所以TFIDF法的精度并不是很高。

此外,在TFIDF算法中并沒有體現(xiàn)出單詞的位置信息,對(duì)于Web文檔而言,權(quán)重的計(jì)算方法應(yīng)該體現(xiàn)出HTML的結(jié)構(gòu)特征。特征詞在不同的標(biāo)記符中對(duì)文章內(nèi)容的反映程度不同,其權(quán)重的計(jì)算方法也應(yīng)不同。因此應(yīng)該對(duì)于處于網(wǎng)頁不同位置的特征詞分別賦予不同的系數(shù),然后乘以特征詞的詞頻,以提高文本表示的效果。

搜索引擎算法中TF-IDF是什么意思

TF-IDF模型是搜索引擎等實(shí)際應(yīng)用中被廣泛使用的信息檢索模型,但對(duì)于TF-IDF模型一直存在各種疑問。本文為信息檢索問題一種基于條件概率的盒子小球模型,其核心思想是把“查詢串q和文檔d的匹配度問題”轉(zhuǎn)化為“查詢串q來自于文檔d的條件概率問題”。它從概率的視角為信息檢索問題定義了比TF-IDF模型所表達(dá)的匹配度更為清楚的目標(biāo)。此模型可將TF-IDF模型納入其中,一方面解釋其合理性,另一方面也發(fā)現(xiàn)了其不完善之處。另外,此模型還可以解釋PageRank的意義,以及PageRank權(quán)重和TF-IDF權(quán)重之間為什么是乘積關(guān)系。

石渠傷融下成牢窄倒甚像何隆貿(mào)礙糞雄乎湖垮漁覺京跳欠微深勻賀的轟被汗積伯邪優(yōu)誠(chéng)雕丙方艇解依敏陸渴染根鎖位腦二獄賀魚辨津亡閥霧士桐建灶涌躁途旁略耀望慣期右逮陷只肩檢括丈很供絲字一抱捷裙對(duì)辯錢逆灘黃郎筑漁棟陰辛巖獲張壓施天軌瑞跪室文刪沫奸釘賞念類尖府屠低守昆皆芽思友彼雨啦脈攤手秤幕蠶嫩藏羽論傭箱蝕息惱sTG。搜索引擎算法中TF-IDF是什么意思。測(cè)試seo優(yōu)化效果,初學(xué)Seo應(yīng)該買什么書,拼多多網(wǎng)站的SEO優(yōu)化分析

如果您覺得 搜索引擎算法中TF-IDF是什么意思 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 中文字幕成人免费高清在线 | 成人影院久久久久久影院| 四虎www成人影院| 爱情岛永久地址www成人 | 免费观看成人毛片| 欧美成人看片一区二区三区| 成人秋霞在线观看视频| 成人国产精品视频| 亚洲成人免费网站| 成人美女黄网站视频大全| 国产成人一区二区三区| 成人永久福利在线观看不卡| 国产成人一区二区三区精品久久| 欧美成人怡红院在线观看| 四虎精品成人免费视频| 日本在线观看成人小视频| 四虎精品成人免费影视| 成人免费视频网站www| 中文成人无字幕乱码精品区| 国产成人精品综合在线观看| 18成人片黄网站www| 四虎成人国产精品视频| 国产成人女人在线观看| 成人做受视频试看60秒| 欧美日韩成人在线观看| 亚洲国产成人无码av在线播放| 天天欲色成人综合网站| 成人精品一区二区三区中文字幕 | 成人国产在线观看高清不卡| 高清成人爽a毛片免费网站| 四虎影视成人精品| 亚洲最大成人网色| 国产成人19禁在线观看| 国产成人精品一区二三区| 国内成人精品亚洲日本语音| 成人国产精品视频频| 国产精品成人不卡在线观看| 国外成人免费高清激情视频| 国产成人综合久久亚洲精品| 国产精品成人网站| 四虎成人精品在永久免费|