百度官方搜索運營團隊一再重申“原創”,只有對用戶有用的內容才能得到百度給予排名的推薦,將優質內容展示給用戶。作為百度搜索展示的內容供應商,我們所有站長必須為其百度用戶輸送新鮮血液,以“為用戶創造價值”為己任,這才是站長朋友們發展的方向與動力,同時是為百度搜索引擎提供新的源泉,繼而成就百度搜索引入了流量間接也成就了自己,為此百度搜索為整個原生態系統平衡啟用了原創星火計劃,以打擊采集類網站。首批對象是受邀的新聞源網站,作為我們中小站長而言看到了一絲希望,百度正努力改善原創文章識別機制原創文章軟件,識別中還存在有很多不足之處,快速反應及識別原創面臨著很大的挑戰,整個網絡中數以千萬計的文章暫時無法做到百分百精確,百度官方也積極表示原創是生態問題,需要長期改善文章原創度檢查工具,讓我們拭目以待。下面就談下編者通過最近運營的首推網站長文章類資訊站點及之前運行的一系列個人博客、企業營銷網站所觀察到的一些相關數據進行了分析總結,現將我對百度目前對原創文章識別機制的一些觀點(請注意文章原創度檢查工具,只是我個人觀點)分享給大家,希望能為新站站長帶來一點幫助原創文章軟件。
參考因素一、首次爬取確認時間
網站日志圖
圖片說明:上面是18日的訪問日志,紅框內1是百度蜘蛛來訪IP段220.181.108.171,2是來訪問的時間2013-8-18 04:09:08,3是爬取的相關路徑根目錄下的/seo/350.html。
百度蜘蛛首次爬行網站原創文章的URL路徑時間(如圖1),百度蜘蛛來訪問時間是2013-8-18 04:09:08此時蜘蛛爬取了路徑為/seo/350.html這篇文章文章原創度檢查工具,并將爬取的文章內空發送回網頁分析系統,至于何時放出這就要看你網站的權重及可信度,此時百度網頁分析系統將文章進行初次篩選并存入到網頁爬取數據總庫,同時記錄下爬取時間、類似文章對比排序編號、文章title標簽等信息等,以便以后對類似信息對行對比篩選歸類,這里可以作為是考察屬于首次原創信息的基本因素之一,因為蜘蛛對各個網站的爬取時間不一,有些低權重站可能發一篇文章要幾天后或更久才會被蜘蛛所爬取,在此期間或被其它高權重站所轉載或又沒有保留作者版權,而易被誤認為是轉載方,對原創作者不公平也無法維持原創生態發展,轉載方卻冒充原創坐享其成,百度絕不允許這種事情發生,并將嚴力打擊這種行為;
文章地址:http://www.brucezhang.com/article/seo/gybdssyqdycwzsbjzzjj.html