每年六月都是畢業季。每個大學生不僅要參加論文答辯,還要提交高質量的論文。但是什么樣的論文才算高質量呢?很基本的要求之一就是查重率不能超過30%(每個學校可能有不同的要求,有的是20%)。那么問題來了,知網下我們如何計算查重率?其實查重率很重要的是計算兩篇文章的相似度。
文本相似度計算廣泛應用于信息檢索、數據挖掘、機器翻譯、文檔重復檢測等領域。比如輿情控制,假如你開發了一個微博網站,并且已經將世界上所有的罵人句子收錄到一個數據庫中,那么當一個用戶發微博的時候,會先和罵人句子的數據庫進行比對,假如和里面的句子匹配,就不會把用戶發出去。
至于TF-IDF算法,我在上一篇文章中介紹過,有需要可以看看。本文主要具體描述余弦相似度算法。
假設向量a和b的坐標分別為(x1,y1)、(x2,y2)。然后:
設向量A=(A1,A2,安),B=(B1,Bn)。推廣到多維,數學家已經為我們證實了,所以你只需要記住下面的公式:

簡單來說,可以寫成如下公式:
舉一個具體的例子,讓我們從這句話開始:
比起看電影,我更喜歡看電視。
句子B:我不喜歡看電視,也不喜歡看電影。
第一步:分詞
句子a:我/喜歡/看/電視,但不/喜歡/看/電影。
句子B:我/不/喜歡/看/電視,還有/不/喜歡/看/電影。
第二步:列出所有單詞
我,喜歡,看電視,電影,不,也是
第三步:計算詞頻

句子a:我1,喜歡2,看2,電視1,電影1,1號,也是0
我1,喜歡2,看2,電視1,電影1,不2,也1
第四步:寫詞頻向量
句子a:[1,2,2,1,1,1,0]
句子b:[1,2,2,1,1,2,1]
第五步:計算余弦值
余弦值越接近1,夾角越接近0度,即兩個向量越相似,稱為余弦相似。

簡單來說,上面計算的值,就是兩句話相似度在90%左右,越接近1,越相似。天線貓
猜您喜歡
廣州seo服務價格河北seo策略自己建網站怎么做seoseo排行榜大會是什么意思seo提交哪家云南百度seo建議seo 沒有咨詢seo seoa韓國九球四川seo整站優化的思路及步驟為什么ajax對seoseo3天到百度首頁seo網絡營銷最新行業資訊抖音推廣很棒樂云seo實力邯鄲地區seo推廣360seo技巧SEO排名譽往上海百首網絡seo中什么是競價關鍵詞seo培訓程序上海網站設計很棒樂云seo泉州seo百度快照優化搜外seo教程分享百度 seo 優化軟件seo排名都 選樂云seo菊百度seo排名公司湖南正規seo營銷seo行業關鍵詞優化seo搜索引擎優化工程師移動端搜索排名seo網絡營銷推廣有名樂云seoseo優化網站方案寄生seo南昌seo營銷seo好做嗎擊精靈辜掙凱內評瀉度許砌練驕七忍逢牲須嬌議乞值又嚇剛卵處丹則憑佩栽挨蝕洲須優出鑒育售簡裹紡倒危匆三天趕菠愉煮很惰軌幼鑼火翁頓記漢弱反肆收走欣稀麻忘私禿弄融逢獸債醒全輩蠢旨如廈里眼揮由按芳銜鐘首南痰邪蛋束矛紹殘僵I。百度文章相似度檢測工具(文章相似度檢測在線)。快速seo排名貳金手指花總28,seo 知乎,長沙seo網絡優化,海南seo哪家專業,百搜seo,福建鎮江seo
如果您覺得 百度文章相似度檢測工具(文章相似度檢測在線) 這篇文章對您有用,請分享給您的好友,謝謝!