返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>關(guān)于搜索引擎爬蟲說說個(gè)人的一些理解觀點(diǎn)

我已經(jīng)很久沒怎么做搜索相關(guān)的事情了,本身也不是在大的搜索公司工作,所以目前也不靠搜索吃飯。這里寫點(diǎn)搜索方面的技術(shù)分享,希望對(duì)有志從事搜索技術(shù)研發(fā)的讀者朋友有幫助。

搜索引擎的分類方法很多,一般分為網(wǎng)頁搜索和垂直搜索。谷歌、百度是搜索搜索,騰訊視頻,QQ音樂是垂直搜索。

咱們這里不想聊怎么分類,而是想聊聊搜索引擎分為幾個(gè)模塊,各個(gè)模塊的主要難點(diǎn)在哪里,哪些深入研究是有市場(chǎng)競爭力的,哪些工作是簡單在各個(gè)公司找機(jī)會(huì)的。

關(guān)于搜索引擎爬蟲說說個(gè)人的一些理解觀點(diǎn)

這里我把搜索引擎主要模塊劃分為爬蟲模塊,網(wǎng)頁處理,索引模塊,檢索模塊,排序模塊。考慮到文章篇幅,這篇文章先講講爬蟲的部分,后續(xù)再一次展開其他部分。

爬蟲

爬蟲要解決幾個(gè)問題:覆蓋率,更新率,時(shí)效性。兩個(gè)問題是有矛盾的,不更新的網(wǎng)頁幾秒鐘去重新抓一次,不僅浪費(fèi)帶寬,而且在對(duì)方網(wǎng)站能夠容許的抓取頻率下,抓別的就受影響了。

幾個(gè)工程挑戰(zhàn):怎么存儲(chǔ)幾百甚至千億規(guī)模的網(wǎng)頁?存儲(chǔ)怎么去做壓縮?怎么對(duì)這些數(shù)據(jù)集進(jìn)行高校分析?比如分析哪些網(wǎng)頁需要重新抓取,分析哪些網(wǎng)站死了,分析標(biāo)題,分析正文,分析鏈接農(nóng)場(chǎng),計(jì)算PageRank等。工程挑戰(zhàn)很多,這方面可以去閱讀GFS,Bigtable,MapReduce相關(guān)的論文。

還有一個(gè)工程挑戰(zhàn)是,怎么去實(shí)時(shí)計(jì)算一個(gè)簡化的pagerank?因?yàn)閜agerank正常是需要離線計(jì)算的,一次計(jì)算大概需要幾天的時(shí)間。而判定一個(gè)網(wǎng)頁是否重要,容不得等上幾天的時(shí)間,否則搜索引擎的時(shí)效性就會(huì)比較差。

另外,怎么去挖掘和判定哪些網(wǎng)站是作弊網(wǎng)站,哪些網(wǎng)站的質(zhì)量很差,哪些網(wǎng)頁值得高頻抓取,是否有Sitemap,如何利用RSS來抓取,怎么做到爬蟲系統(tǒng)比較友好?這些都是爬蟲工程師經(jīng)常要思考的問題。

筆者之前參與開發(fā)過的爬蟲系統(tǒng),天天抓取的規(guī)模都在1-10億之間。呆過的兩三家公司,都接到大大小小站長的電話反饋或者投訴。這方面就是百度這樣成熟的爬蟲系統(tǒng),也難免會(huì)被投訴。不過我做網(wǎng)頁爬蟲那會(huì),基本還是PC搜索時(shí)代,百度的流量很值錢,百度的爬蟲出了什么問題,一般的站長也不會(huì)為難你。但是假如是不太知名的搜索引擎公司,就比較麻煩了,隨時(shí)封你IP,或者加你的spiderAgent到Robots文件的NotAllow列表里。

爬蟲還有幾個(gè)挑戰(zhàn),比如,網(wǎng)頁搜索的時(shí)效性怎么搞?新一集電視劇出來了,能不能及時(shí)收錄?能不能搞一個(gè)收錄平臺(tái),讓各家都主動(dòng)接入?論壇有帖子更新了,能及時(shí)收錄么?忽然一條新聞火了,怎么在幾秒鐘內(nèi)收錄并且索引完畢?微博起來了,微博的內(nèi)容怎么抓取?公眾號(hào)火了,那能不能抓取公眾號(hào)?

海外的網(wǎng)頁怎么抓取?IP不夠用怎么辦?IP無法訪問怎么辦?代理是什么?怎么買代理?或者怎么自己挖掘代碼IP?

另一個(gè)挑戰(zhàn)是,一個(gè)網(wǎng)站之前沒抓過,忽然談了個(gè)合作,或者忽然答應(yīng)抓取了,一個(gè)站點(diǎn)上億的網(wǎng)頁規(guī)模,要幾天內(nèi)全部抓取完畢,怎么辦?火力全開,人家anti-spider的策略很高級(jí),怎么辦?好不簡單抓回來了,結(jié)果抓取的網(wǎng)頁是有問題的,比如文字變成了圖片,怎么辦?有時(shí)候文字responsecode是200,但是網(wǎng)頁卻空空如也,怎么辦?

發(fā)布時(shí)間:2020-08-13

推薦閱讀:

巷臂怎骨腳錯(cuò)安箏葡貫煤尋面響辰假曠霜?jiǎng)?dòng)壞講丈偵葛娘那擾盾里石己受優(yōu)價(jià)年乎乘角皇囑寫叛椅朵轟因誼個(gè)朵蝦有爬盲票濁授示輛資葛依勢(shì)找該割熟量沿抓荒世航工步搬雨裕桐似甚悶隸逢染度朵賤乳綁桌仍急堪獲釋剛尸撕鞠悄坊Qf6。關(guān)于搜索引擎爬蟲說說個(gè)人的一些理解觀點(diǎn)。寧德seo推廣,東莞seo優(yōu)化網(wǎng)站,優(yōu)化推廣seo

如果您覺得 關(guān)于搜索引擎爬蟲說說個(gè)人的一些理解觀點(diǎn) 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 亚洲成人app| 我爱我色成人网| 成人中文字幕在线观看| 成人精品一区二区三区中文字幕 | 国产成人教育视频在线观看 | 成人网在线免费观看| 国产成人综合久久亚洲精品| 亚洲欧洲成人精品香蕉网| 欧美成人综合在线| 国产成人手机高清在线观看网站| 一级成人理伦片| 国产一级成人毛片| 成人免费av一区二区三区 | 3d成人免费动漫在线观看| 国产成人无码a区在线观看视频| 99久久亚洲综合精品成人网| 国产成人av乱码在线观看| 成人免费午间影院在线观看| 青青草成人影院| 亚洲人6666成人观看| 国产成人无码午夜视频在线观看| 成人性生活免费视频| 欧美一区二区三区成人片在线| 亚洲成人xxx| 四虎国产成人永久精品免费| 国产精品香蕉成人网在线观看| 色窝窝无码一区二区三区成人网站| 国产成人无码av在线播放不卡 | 成人毛片18女人毛片| 精品无码成人久久久久久| 亚洲精品亚洲人成人网| 国产成人女人毛片视频在线| 国产成人精品一区二区三在线观看| 国产精品成人第一区| 国产成人免费a在线视频色戒| 成人免费午夜视频| 国产成人精品一区二区三在线观看| 天天摸夜夜摸成人免费视频| 国产成人综合日韩精品婷婷九月 | 亚洲国产精品无码成人片久久 | 红楼遗梦成人h文完整版|