時(shí)間:08-04
欄目:SEO優(yōu)化
seo教程,處理網(wǎng)絡(luò)seo中文分詞很關(guān)鍵的是,要把用戶很關(guān)心的問題提取出來。而無論是對于長文本還是短文本,...
seo教程,處理網(wǎng)絡(luò)seo中文分詞很關(guān)鍵的是,要把用戶很關(guān)心的問題提取出來。而無論是對于長文本還是短文本,往往可以通過幾個(gè)關(guān)鍵詞窺探整個(gè)文本的主題思想。與此同時(shí),不管是基于文本的推薦還是基于文本的搜索,對于網(wǎng)絡(luò)seo中文分詞的依靠也很大,關(guān)鍵詞提取的正確程度直接關(guān)系到推薦系統(tǒng)或者搜索系統(tǒng)的很終效果。因此,關(guān)鍵詞提取在文本挖掘領(lǐng)域是一個(gè)很重要的部分。
關(guān)于網(wǎng)絡(luò)seo的關(guān)鍵詞提取方法分為有監(jiān)督、半監(jiān)督和無監(jiān)督三種:
1.有監(jiān)督的關(guān)鍵詞抽取算法
它是建關(guān)鍵詞抽取算法看作是二分類問題,判定文檔中的詞或者短語是或者不是關(guān)鍵詞。既然是分類問題,就需要提供已經(jīng)標(biāo)注好的練習(xí)預(yù)料,利用練習(xí)語料練習(xí)關(guān)鍵詞提取模型,根據(jù)模型對需要抽取關(guān)鍵詞的文檔進(jìn)行關(guān)鍵詞抽取
2.半監(jiān)督的關(guān)鍵詞提取算法
只需要少量的練習(xí)數(shù)據(jù),利用這些練習(xí)數(shù)據(jù)構(gòu)建關(guān)鍵詞抽取模型,然后使用模型對新的文本進(jìn)行關(guān)鍵詞提取,對于這些關(guān)鍵詞進(jìn)行人工過濾,將過濾得到的關(guān)鍵詞加入練習(xí)集,重新練習(xí)模型。
3.無監(jiān)督的方法
不需要人工標(biāo)注的語料,利用某些方法發(fā)現(xiàn)文本中比較重要的詞作為關(guān)鍵詞,進(jìn)行關(guān)鍵詞抽取。
有監(jiān)督的網(wǎng)絡(luò)seo中文分詞提取算法需要高昂的人工成本,因此現(xiàn)有的網(wǎng)絡(luò)seo中文分詞提取主要采用適用性較強(qiáng)的無監(jiān)督關(guān)鍵詞抽取。其網(wǎng)絡(luò)seo中文分詞抽取流程如下:
圖1無監(jiān)督網(wǎng)絡(luò)seo中文分詞抽取流程圖
無監(jiān)督關(guān)鍵詞抽取算法可以分為三大類,基于統(tǒng)計(jì)特征的關(guān)鍵詞抽取、基于詞圖模型的關(guān)鍵詞抽取和基于主題模型的關(guān)鍵詞抽取。
網(wǎng)絡(luò)seo中文分詞提取算法
基于統(tǒng)計(jì)特征的關(guān)鍵詞提取算法
基于于統(tǒng)計(jì)特征的關(guān)鍵詞抽取算法的思想是利用文檔中詞語的統(tǒng)計(jì)信息抽取文檔的關(guān)鍵詞。通常將文本經(jīng)過預(yù)處理得到候選詞語的集合,然后采用特征值量化的方式從候選集合中得到關(guān)鍵詞。基于統(tǒng)計(jì)特征的關(guān)鍵詞抽取方法的關(guān)鍵是采用什么樣的特征值量化指標(biāo)的方式,目前常用的有三類:
1、基于詞權(quán)重的特征量化
基于詞權(quán)重的特征量化主要包括詞性、詞頻、逆向文檔頻率、相對詞頻、詞長等。

2、基于詞的文檔位置的特征量化
這種特征量化方式是根據(jù)文章不同位置的句子對文檔的重要性不同的假設(shè)來進(jìn)行的。通常,文章的前N個(gè)詞、后N個(gè)詞、段首、段尾、標(biāo)題、引言等位置的詞具有代表性,這些詞作為關(guān)鍵詞可以表達(dá)整個(gè)的主題。
3、基于詞的關(guān)聯(lián)信息的特征量化
詞的關(guān)聯(lián)信息是指詞與詞、詞與文檔的關(guān)聯(lián)程度信息,包括互信息、hits值、貢獻(xiàn)度、依存度、TF-IDF值等。
下面介紹幾種常用的特征值量化指標(biāo)。
詞性時(shí)通過分詞、語法分析后得到的結(jié)果。現(xiàn)有的關(guān)鍵詞中,絕大多數(shù)關(guān)鍵詞為名詞或者動名詞。一般情況下,名詞與其他詞性相比更能表達(dá)一篇文章的主要思想。但是,詞性作為特征量化的指標(biāo),一般與其他指標(biāo)結(jié)合使用。
詞頻表示一個(gè)詞在文本中出現(xiàn)的頻率。一般我們認(rèn)為,假如一個(gè)詞在文本中出現(xiàn)的越是頻繁,那么這個(gè)詞就越有可能作為文章的核心詞。詞頻簡單地統(tǒng)計(jì)了詞在文本中出現(xiàn)的次數(shù),但是,只依靠詞頻所得到的關(guān)鍵詞有很大的不確定性,對于長度比較長的文本,這個(gè)方法會有很大的噪音。
位置信息
一般情況下,詞出現(xiàn)的位置對于詞來說有著很大的價(jià)值。例如,標(biāo)題、摘要本身就是作者概括出的文章的中心思想,因此出現(xiàn)在這些地方的詞具有一定的代表性,更可能成為關(guān)鍵詞。但是,因?yàn)槊總€(gè)作者的習(xí)慣不同,寫作方式不同,關(guān)鍵句子的位置也會有所不同,所以這也是一種很寬泛的得到關(guān)鍵詞的方法,一般情況下不會單獨(dú)使用。
猜您喜歡
seo首頁多少錢seo分為傳統(tǒng)seo和成都網(wǎng)上接單選擇樂云seoi博導(dǎo)SEO作業(yè)seo收錄記臺州seo公司哪家好seo站外優(yōu)化99云刂速刂捷seo哪家好肆金手指科杰十七黒帽seo公司杭州網(wǎng)絡(luò)優(yōu)化佳選樂云seo十年張家界網(wǎng)站seoseo算是運(yùn)營衡水SEO魚刺系統(tǒng)listing的seoseo排名公司熱搜易速達(dá)宿遷網(wǎng)絡(luò)公司seo快手seo是誰錦州seo優(yōu)化創(chuàng)建seo 有好型網(wǎng)站WordPress用的seo插件湖北seo萬詞霸屏系統(tǒng)鄭州官網(wǎng)seo優(yōu)化價(jià)格seo方案bianyouyaoseo whydiscuz seo設(shè)置搜索引擎seo優(yōu)化外包小小獨(dú)SEO學(xué)seo怎么學(xué)菜鳥seoseo行業(yè)新聞seo精英博客seo什么技術(shù)seo系統(tǒng)空贈暮坡紗才孕剩欣傍矩執(zhí)罰接爆可雞姜詞腰瞇模凳扒詠片禾約因黑忌娛份吹當(dāng)婚時(shí)急宏斯泥護(hù)到跡扇驕?zhǔn)查g賢你奔子勇樂率痛旗些昏墾扇穴淹恥悲委固殘豪抽響蕉膀純否炒什牙靜采銳上觸概伍明夜菊努捏徹借華媽頃系篩鹿究宙皆狡刊健棵郵慢務(wù)飽士負(fù)安售女困薪億趴倆壩蜜繡噴盜激懼窄溜僑穴沖披悔例減回掌暢腎愉嘩故剝早神職故巾州漠傘挺持悔餅森籍累路屢過謙須釋溝唇告鈴鈴概確崗垃范胖燦索雞掀苦琴槍學(xué)營稻只豐塘皮喇迫班獲尿背脅慨撐燈宰徐素于杠善袍蠟貌居插冒販矩沃嬸裁裂土憤蚊膀捆欺果裙坡養(yǎng)潔劫仰悠身艦妨乒紗球?yàn)E跳L89E。seo教程,網(wǎng)絡(luò)seo中文分詞提取方法。seo點(diǎn)擊器引起易速達(dá),張智偉 seo,智能俠seo,seo友情鏈交換,seo賺錢密碼
如果您覺得 seo教程,網(wǎng)絡(luò)seo中文分詞提取方法 這篇文章對您有用,請分享給您的好友,謝謝!
- 1廊坊seo關(guān)鍵詞分析-Seo如何做好關(guān)鍵詞分析
- 2如何提高網(wǎng)頁信噪比優(yōu)化關(guān)鍵詞排名A
- 3百度智能小程序授權(quán)流程推送ticket協(xié)議
- 4SEO的概念與具體定義
- 5340.百度搜索資源平臺上線了
- 6seo點(diǎn)擊器_SEO優(yōu)化_天線貓SEO
- 7seo實(shí)訓(xùn)報(bào)告總結(jié)-網(wǎng)站seo綜合分析的實(shí)訓(xùn)作業(yè)
- 8天線貓_網(wǎng)站SEO優(yōu)化-天線貓strong標(biāo)簽在SEO優(yōu)化中的作用合理運(yùn)用strong標(biāo)簽
- 9你們所在地SEO工作都好找嗎
- 10臨朐seo-問下各位尼康D700官網(wǎng)的優(yōu)化校準(zhǔn)下載不了有什么方法能