萬能文章采集器
天線貓軟件出品的一款萬能文章采集軟件,可以只需輸入關鍵字就能采集各種網頁和新聞,還可以采集指定列表頁(欄目頁)的文章。
注意:微信引擎限制嚴格,采集線程數請設置為1個,否則非常容易出驗證碼。
功能特點:
1. 依托于天線貓軟件獨家萬能正文識別智能算法,可實現任何網頁正文自動提取準確率95%以上。
2. 只需輸入關鍵詞,就能采集到微信文章、今日頭條、一點資訊、百度新聞和網頁、搜狗新聞和網頁、360新聞和網頁、谷歌新聞和網頁、必應新聞和網頁、雅虎新聞和網頁;可批量關鍵詞全自動采集。
3. 可定向采集指定網站欄目列表下的所有文章(如百度經驗、百度貼吧),智能化匹配,無需編寫復雜規則。
4. 文章轉譯功能,可對采集好的文章,將其翻譯到英文再翻譯回中文,實現翻譯偽原創,支持谷歌和有道翻譯。
5. 史上最簡單最智能文章采集器,更多特點一試就知!
2.9.0.0:全新增加正文過濾功能,可以屏蔽掉絕大多數不屬于正文的內容;合并嚴格和標準的正文識別,并強化正文識別能力(現在識別的正文沒有再帶父層的p標簽了,都是取內部的代碼了);增強對部分特意偽裝的網站標題的提取能力;其他更新。
2.9.1.0:采集文章URL,強化相對路徑的處理,比如../ 和 ../../ 等,經過本版本強化處理后,相對路徑將完全轉化為絕對路徑,與瀏覽器中鼠標移到鏈接上查看到的一致。
2.9.2.0:修復谷歌改動導致采集失敗的問題。
2.9.3.0:修復關鍵詞采集文章欄目選定精確標簽時沒有彈出輸入的問題(前面版本造成);根據URL采集文章欄目新增刪除外層代碼可選選項(之前默認啟用);調試模式更改為文章來源;疑點說明更新;其他。
2.9.5.0:修復微信采集失敗問題。
2.9.6.0:增強分頁采集識別能力。
2.9.7.0:新增谷歌地址前綴指定,可自行設置能使用的谷歌域名。
2.9.8.0:采集設置的正則替換支持使用<#sm#>隔開多個匹配和替換表達式。
2.9.9.0:增強正文識別能力,識別準確度有所提升;增加對特殊編碼響應的識別。
2.9.10.0:增加對二次加載圖片的新屬性“original”識別轉換。
2.9.11.0:外置文件更新谷歌翻譯使用的域名;修正谷歌tk參數變動翻譯失敗的問題。
2.10.0.0:修復部分情況因系統原因無法跳轉網址導致百度網頁無法采集的問題;新增自動去除網址的#后綴部分,該部分會導致網頁讀取錯誤;采集文章URL新增左邊和右邊插入選項;修復前面版本導致的正文提取的過濾存在的一些問題;其他更新。
2.10.1.0:增強對部分采用<meta>跳轉的網頁識別。
2.10.2.0:增加標題字數限制為最多100字,以免字數超長導致的一些問題;其他更新。
2.10.3.0:修復必應新聞采集失敗問題;修復部分網頁的分頁格式錯誤導致重復采集的問題;更換網頁訪問方式(以前https使用WiniNet,http使用WinHttp,現在都用WinHttp);其他更新。
2.10.5.0:修復軟件對部分網頁跳轉代碼錯判而讀取失敗的問題;采集文章URL列表欄目的導入導出配置功能新增支持同步導入導出根據URL采集文章欄目的配置。
2.11.0.0:新增動態加載的列表頁URL的采集功能(如今日頭條toutiao.com);讀取網頁時增加USC2解碼(如新浪微博需要解碼才能采集);其他多項更新。
2.11.1.0:文章查看器的文件列表框改進以便看全長標題,并且如果讀取的文件數量不全,請在切換目錄讀取時按住Ctrl鍵即可增強讀取;采集文章URL列表的導入導出配置增加對生成列表頁URL和采集列表頁URL的配置同步功能(各窗口處于打開狀態才能同步配置)。
2.11.2.0:修復過濾正文功能遇到個別網頁的特殊代碼過濾不正常的問題。
2.11.3.0:修復部分DZ論壇自動識別錯誤的問題;修復刪除外層代碼時個別頁面自動識別錯誤的問題
2.11.3.1:修復class過濾的一個細節問題;默認打勾刪除外層代碼
2.12.0.0:增強分頁采集對分頁的識別能力(尤其是圖片類的分頁);生成列表頁功能新增支持倒序生成
2.12.1.0:新增采集列表頁的文章URL時支持POST方法
2.13.0.0:文章保存格式全新增加txt帶圖片排版;新增圖片二次加載的新屬性識別 data-original;文章來源改為在文章末尾追加;新增智能忽略版權信息被識別為正文;調整界面組件位置;其他更新。
2.13.1.0:修復xp系統不能采集淘寶網頁的問題;修復//類型鏈接轉換錯誤問題;更新谷歌地址前綴文件。
2.13.2.0:修復txt格式保存時沒有自動轉換網頁轉義符的問題
2.13.3.0:新增【優先標題標簽.txt】外部配置文件以解決一些混亂網頁識別標題錯誤的問題
2.13.8.0:【采集文章URL列表】新增ContentType自定義設置支持以解決有些網頁之需(該設置位于【采集列表頁URL】);新增【指定標題位置.txt】外部配置文件,自動識別不了標題時能手動指定標題的開始和結束標記;搜狗修改為每頁10個網址采集,并新增搜狗驗證碼識別彈出;其他更新。
2.13.9.0:修復關鍵詞采集完全無結果時陷入死循環的問題。
2.13.10.0:采集列表頁URL功能新增高級參數(兩個值用空格隔開,如果值1空白自動使用值2)。
2.15.0.0:URL采集文章面板的精確標簽新增模糊匹配功能;新增計劃任務功能,可以設定多個時間點,到點自動開始采集(當前被顯示面板的開始采集)。
2.15.1.0:修復微信采集失敗問題。
2.15.2.0:修復360網頁和新聞的部分問題。
2.15.3.0:搜索引擎讀取增加超時50秒設置;嘗試修復部分情況下關鍵詞采集崩潰的問題。
2.15.5.0:采集文章URL列表,新增來路設置;更新谷歌鏡像地址。
2.15.8.0:修復百度網頁搜索時間設置失效問題并取消百度新聞時間設置(已不支持);微信采集時增加正文最少字數的設置支持(原先只有自動識別的可以設置字數,而微信是內置精確標簽的所以不能設置字數,現在可以了);【文章查看】切換顯示時增加自動刷新目錄樹;關鍵詞采集正文字數不足時補充提示設置的字數值
2.15.9.0:修復360新聞采集失敗問題。
2.15.10.0:修復微信采集失敗問題。
2.15.11.0:因有道翻譯失效且無法更新,故新增百度翻譯;其他更新
2.16.0.0:關鍵字采集文章新增今日頭條、一點資訊等自媒體平臺
2.16.1.0:修復上次升級導致的采集分頁功能異常
2.16.2.0:修復今日頭條圖片鏈接問題;微信增加登錄采集。
2.16.3.0:修復設置采集篇數時容易出現無法繼續采集下一個關鍵詞的問題。
2.17.0.0:修復谷歌無法采集的問題(仍需翻墻);修復百度轉譯失效問題(更改為搜狗轉譯,翻譯效果最好的人工智能翻譯引擎)。
2.17.1.0:對今日頭條增加了嘗試次數,并且自動線程為1,以避免被限制
2.17.1.1:嘗試修復關鍵詞采集出現的數組錯誤問題
2.17.2.0:修復上次升級導致的采集錯誤
-
天線貓電商評論采集器產品功能涵蓋淘寶評論采集軟件,天貓評論采集,蘇寧評論采集等.憑借專業的技術和售后隊伍,天線貓京東評論采集工具不斷推出新的適合潮流發展的采集器,提升服務水平,全年365天不間斷快速響應服務
-
天線貓新浪微博數據采集產品功能涵蓋新浪微博內容采集助手.憑借專業的技術和售后隊伍,天線貓新浪微博信息采集器不斷推出新的適合潮流發展新浪微博信息采集器 ,提升服務水平,全年365天不間斷快速響應服務
-
天線貓網絡圖片采集器產品功能涵蓋采集圖片工具,網站圖片采集軟件,圖片采集程序,采集工具圖片等.憑借專業的技術和售后隊伍,天線貓圖片采集軟件秉承“誠信、專業、創新、合作”的企業精神.天線貓圖片采集器愿與各位合作伙伴一起攜手并進,共創輝煌!
-
天線貓關鍵詞網址采集器產品功能涵蓋關鍵詞搜索引擎標題采集軟件等.憑借專業的技術和售后隊伍,天線貓秉承“誠信、專業、創新、合作”的企業精神.天線貓描述采集愿與各位合作伙伴一起攜手并進,共創輝煌!
-
天線貓京東商品采集器,京東商城信息采集,京東商品信息采集產品功能涵蓋等.憑借專業的技術和售后隊伍,天線貓秉承“誠信、專業、創新、合作”的企業精神.天線貓愿與各位合作伙伴一起攜手并進,共創輝煌!