時(shí)間:11-20
欄目:SEO優(yōu)化
充分的了解搜索引擎算法才能真正把握seo優(yōu)化技術(shù),所以在一開始的seo技術(shù)的學(xué)習(xí)當(dāng)中就要不斷的由淺入深的去建立這方面更加專業(yè)的認(rèn)知。在seo基礎(chǔ)學(xué)習(xí)當(dāng)中假如不去了解和熟悉搜索引擎,確實(shí)是無法通過純白帽seo來完成一個(gè)網(wǎng)站的優(yōu)化,以下內(nèi)容轉(zhuǎn)載自百度百科。
搜索引擎算法中TF-IDF是什么意思
TF-IDF(termfrequency–inversedocumentfrequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(TermFrequency),IDF是逆文本頻率指數(shù)(InverseDocumentFrequency)。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會(huì)使用基于鏈接分析的評(píng)級(jí)方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序。
TFIDF的主要思想是:假如某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TFIDF實(shí)際上是:TF*IDF,TF詞頻(TermFrequency),IDF逆向文件頻率(InverseDocumentFrequency)。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:假如包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區(qū)分能力。假如某一類文檔C中包含詞條t的文檔數(shù)為m,而其它類包含t的文檔總數(shù)為k,顯然所有包含t的文檔數(shù)n=m+k,當(dāng)m大的時(shí)候,n也大,按照IDF公式得到的IDF的值會(huì)小,就說明該詞條t類別區(qū)分能力不強(qiáng)。但是實(shí)際上,假如一個(gè)詞條在一個(gè)類的文檔中頻繁出現(xiàn),則說明該詞條能夠很好代表這個(gè)類的文本的特征,這樣的詞條應(yīng)該給它們賦予較高的權(quán)重,并選來作為該類文本的特征詞以區(qū)別與其它類文檔。這就是IDF的不足之處.在一份給定的文件里,詞頻(termfrequency,TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的頻率。這個(gè)數(shù)字是對(duì)詞數(shù)(termcount)的歸一化,以防止它偏向長(zhǎng)的文件。(同一個(gè)詞語在長(zhǎng)文件里可能會(huì)比短文件有更高的詞數(shù),而不管該詞語重要與否。)
TFIDF算法是建立在這樣一個(gè)假設(shè)之上的:對(duì)區(qū)別文檔很有意義的詞語應(yīng)該是那些在文檔中出現(xiàn)頻率高,而在整個(gè)文檔集合的其他文檔中出現(xiàn)頻率少的詞語,所以假如特征空間坐標(biāo)系取TF詞頻作為測(cè)度,就可以體現(xiàn)同類文本的特點(diǎn)。另外考慮到單詞區(qū)別不同類別的能力,TFIDF法認(rèn)為一個(gè)單詞出現(xiàn)的文本頻數(shù)越小,它區(qū)別不同類別文本的能力就越大。因此引入了逆文本頻度IDF的概念,以TF和IDF的乘積作為特征空間坐標(biāo)系的取值測(cè)度,并用它完成對(duì)權(quán)值TF的調(diào)整,調(diào)整權(quán)值的目的在于突出重要單詞,抑制次要單詞。但是在本質(zhì)上IDF是一種試圖抑制噪音的加權(quán),并且單純地認(rèn)為文本頻數(shù)小的單詞就越重要,文本頻數(shù)大的單詞就越無用,顯然這并不是完全正確的。IDF的簡(jiǎn)單結(jié)構(gòu)并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無法很好地完成對(duì)權(quán)值調(diào)整的功能,所以TFIDF法的精度并不是很高。
此外,在TFIDF算法中并沒有體現(xiàn)出單詞的位置信息,對(duì)于Web文檔而言,權(quán)重的計(jì)算方法應(yīng)該體現(xiàn)出HTML的結(jié)構(gòu)特征。特征詞在不同的標(biāo)記符中對(duì)文章內(nèi)容的反映程度不同,其權(quán)重的計(jì)算方法也應(yīng)不同。因此應(yīng)該對(duì)于處于網(wǎng)頁不同位置的特征詞分別賦予不同的系數(shù),然后乘以特征詞的詞頻,以提高文本表示的效果。

TF-IDF模型是搜索引擎等實(shí)際應(yīng)用中被廣泛使用的信息檢索模型,但對(duì)于TF-IDF模型一直存在各種疑問。本文為信息檢索問題一種基于條件概率的盒子小球模型,其核心思想是把“查詢串q和文檔d的匹配度問題”轉(zhuǎn)化為“查詢串q來自于文檔d的條件概率問題”。它從概率的視角為信息檢索問題定義了比TF-IDF模型所表達(dá)的匹配度更為清楚的目標(biāo)。此模型可將TF-IDF模型納入其中,一方面解釋其合理性,另一方面也發(fā)現(xiàn)了其不完善之處。另外,此模型還可以解釋PageRank的意義,以及PageRank權(quán)重和TF-IDF權(quán)重之間為什么是乘積關(guān)系。

猜您喜歡
上海整合營(yíng)銷知名樂云seo十年dede中欄目里seo標(biāo)題怎么引用快速seo彡金蘋果出詞快饣PPC與SEO的區(qū)別與聯(lián)系成都b2b推廣推薦樂云seo蘇州百度seo推廣佛山品牌營(yíng)銷推 薦樂云seo南京seo公司哪附子seo課程2018武漢 seo 培訓(xùn)武漢網(wǎng)站建設(shè)專注樂云seo專家seo點(diǎn)擊器卓殊云速捷認(rèn)可百度關(guān)鍵詞免費(fèi)seoseo案例8點(diǎn)seo長(zhǎng)期需要seo軟文seo考試指的是什么外貿(mào)英文seo薪資seo效果預(yù)估seo 內(nèi)部?jī)?yōu)化seo作業(yè)淄博掌沃軟件開發(fā)seoseo推廣優(yōu)缺點(diǎn)移動(dòng)html seogoogle seo關(guān)鍵詞設(shè)置seo一般多久上首頁長(zhǎng)尾詞排名推廣首推樂云seoseo刷詞工具開發(fā)江蘇seo公司公司培訓(xùn)seo費(fèi)用是多少SEO合作合同模板網(wǎng)站seo專員招聘武漢關(guān)鍵詞發(fā)布都選樂云seo百度愛采購(gòu)官網(wǎng)推 薦樂云seo石渠傷融下成牢窄倒甚像何隆貿(mào)礙糞雄乎湖垮漁覺京跳欠微深勻賀的轟被汗積伯邪優(yōu)誠(chéng)雕丙方艇解依敏陸渴染根鎖位腦二獄賀魚辨津亡閥霧士桐建灶涌躁途旁略耀望慣期右逮陷只肩檢括丈很供絲字一抱捷裙對(duì)辯錢逆灘黃郎筑漁棟陰辛巖獲張壓施天軌瑞跪室文刪沫奸釘賞念類尖府屠低守昆皆芽思友彼雨啦脈攤手秤幕蠶嫩藏羽論傭箱蝕息惱sTG。搜索引擎算法中TF-IDF是什么意思。測(cè)試seo優(yōu)化效果,初學(xué)Seo應(yīng)該買什么書,拼多多網(wǎng)站的SEO優(yōu)化分析
如果您覺得 搜索引擎算法中TF-IDF是什么意思 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!