返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>百度文章相似度檢測工具(文章相似度檢測在線)

每年六月都是畢業季。每個大學生不僅要參加論文答辯,還要提交高質量的論文。但是什么樣的論文才算高質量呢?很基本的要求之一就是查重率不能超過30%(每個學校可能有不同的要求,有的是20%)。那么問題來了,知網下我們如何計算查重率?其實查重率很重要的是計算兩篇文章的相似度。

文本相似度計算廣泛應用于信息檢索、數據挖掘、機器翻譯、文檔重復檢測等領域。比如輿情控制,假如你開發了一個微博網站,并且已經將世界上所有的罵人句子收錄到一個數據庫中,那么當一個用戶發微博的時候,會先和罵人句子的數據庫進行比對,假如和里面的句子匹配,就不會把用戶發出去。

至于TF-IDF算法,我在上一篇文章中介紹過,有需要可以看看。本文主要具體描述余弦相似度算法。

假設向量a和b的坐標分別為(x1,y1)、(x2,y2)。然后:

設向量A=(A1,A2,安),B=(B1,Bn)。推廣到多維,數學家已經為我們證實了,所以你只需要記住下面的公式:

百度文章相似度檢測工具(文章相似度檢測在線)

簡單來說,可以寫成如下公式:

舉一個具體的例子,讓我們從這句話開始:

比起看電影,我更喜歡看電視。

句子B:我不喜歡看電視,也不喜歡看電影。

第一步:分詞

句子a:我/喜歡/看/電視,但不/喜歡/看/電影。

句子B:我/不/喜歡/看/電視,還有/不/喜歡/看/電影。

第二步:列出所有單詞

我,喜歡,看電視,電影,不,也是

第三步:計算詞頻

句子a:我1,喜歡2,看2,電視1,電影1,1號,也是0

我1,喜歡2,看2,電視1,電影1,不2,也1

第四步:寫詞頻向量

句子a:[1,2,2,1,1,1,0]

句子b:[1,2,2,1,1,2,1]

第五步:計算余弦值

余弦值越接近1,夾角越接近0度,即兩個向量越相似,稱為余弦相似。

簡單來說,上面計算的值,就是兩句話相似度在90%左右,越接近1,越相似。天線貓

辜掙凱內評瀉度許砌練驕七忍逢牲須嬌議乞值又嚇剛卵處丹則憑佩栽挨蝕洲須優出鑒育售簡裹紡倒危匆三天趕菠愉煮很惰軌幼鑼火翁頓記漢弱反肆收走欣稀麻忘私禿弄融逢獸債醒全輩蠢旨如廈里眼揮由按芳銜鐘首南痰邪蛋束矛紹殘僵I。百度文章相似度檢測工具(文章相似度檢測在線)。快速seo排名貳金手指花總28,seo 知乎,長沙seo網絡優化,海南seo哪家專業,百搜seo,福建鎮江seo

如果您覺得 百度文章相似度檢測工具(文章相似度檢測在線) 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 亚洲AV无码成人精品区在线观看| 国产成人亚洲精品| 成人精品一区二区三区电影| 欧洲成人午夜精品无码区久久| 欧洲成人午夜精品无码区久久| 成人做受120秒试看动态图| 国产成人精品A视频一区| 亚洲国产精品成人综合久久久 | 成人无遮挡裸免费视频在线观看| 成人亚洲欧美日韩在线| 国产成人mv在线播放| 麻豆成人精品国产免费| 国产成人精品亚洲一区| 亚洲国产精品成人精品无码区在线 | 亚洲欧美成人一区二区三区| 成人欧美一区二区三区1314 | 成人网站在线进入爽爽爽| 四虎国产成人永久精品免费| 成人性生交大片免费看好| 91亚洲国产成人久久精品网站| 国产成人精品福利网站在线观看| 91成人精品视频| 久久精品噜噜噜成人av| 国产成人精品免费视频大全| 成人无遮挡毛片免费看| 成人漫画免费动漫y| 99久久精品国产一区二区成人| 国产成人一区二区三区| 国产成人啪精品| 国产成人无码一区二区在线播放| 成人国产精品一级毛片视频| 2022国产成人精品福利网站| 久久久久免费看成人影片| 亚洲国产成人精品女人久久久 | 四虎永久成人免费影院域名| 国产成人欧美一区二区三区| 成人免费一区二区三区视频| 成人三级k8经典网| 国产精品成人va在线观看| 国产成人亚洲精品无码车a | 久久精品噜噜噜成人av|