SEO教程>搜索引擎預(yù)處理的工作原理搜索引擎預(yù)處理工作SEO教程天津2年前(2021-12-04)147°C通過上述編輯對搜索引擎預(yù)處理概念的簡要介紹,讀者必須有一定的了解,那么在許多預(yù)處理過程中是什么樣的工作流程呢?讓我們來看看預(yù)處理中搜索引擎的各種工作流程!1.關(guān)鍵字提取:搜索引擎可以完全識別的主要原因是基于文本內(nèi)容的網(wǎng)絡(luò)資源。搜索引擎蜘蛛也會抓取大量HTML代碼" />
返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>搜索引擎預(yù)處理工作

>

SEO教程>

搜索引擎預(yù)處理的工作原理

搜索引擎預(yù)處理工作

SEO教程天津

2年前(2021-12-04)

147°C

通過上述編輯對搜索引擎預(yù)處理概念的簡要介紹,讀者必須有一定的了解,那么在許多預(yù)處理過程中是什么樣的工作流程呢?讓我們來看看預(yù)處理中搜索引擎的各種工作流程!

1.關(guān)鍵字提取:搜索引擎可以完全識別的主要原因是基于文本內(nèi)容的網(wǎng)絡(luò)資源。搜索引擎蜘蛛也會抓取大量HTML代碼,如關(guān)鍵字,描述,標(biāo)題,H,css,div標(biāo)簽等,其主要工作是處理HTML標(biāo)簽,程序等,然后提取文本內(nèi)容用于排名計算。

2.刪除重復(fù)無用的單詞:在網(wǎng)頁中多次出現(xiàn)相同的單詞,如“得得”,“我”,“的”,“你”,“地地”,“啊”,“呀”,“無用的詞語如”,“”重新“和”到“,雖然發(fā)生的頻率非常高,但一旦反復(fù)出現(xiàn),就沒有多少價值。一般來說,這樣的詞語都?xì)w結(jié)為停用詞。這樣的話也是需要刪除。

3.中文分詞技術(shù):分詞是中文搜索引擎的獨特技術(shù)支持。中文信息和英文信息的區(qū)別在于:英文單詞和單詞用空格分隔。這對中國人來說是不可行的。搜索引擎必須將整個句子切成小單位,例如“我是中國人”。出來的形式是“我”,“是”,“中國”,“人”。分詞技術(shù)的效率直接影響整個系統(tǒng)的效率。

基本上有兩種分詞方法:基于分詞的:分詞方法和基于統(tǒng)計的分詞方法。

1)基于單詞匹配的分詞

根據(jù)匹配方向,可分為正匹配,反向匹配和很小切割字。這三種方法可以混合使用,即前向很大匹配,反向很大匹配,前向很小匹配和反向很小匹配。

搜索引擎預(yù)處理工作

前向很大匹配:假設(shè)字典中很長的單詞是m,首先根據(jù)中文標(biāo)點符號和特征單詞將中文句子分成短語,然后取短語的前m個單詞,找出該單詞是否存在于字體中。假如它存在,該短語將刪除該單詞;假如它不存在,則刪除m個單詞的很后一個單詞,然后檢查剩余單詞是否是單個單詞,假如是,則輸出單詞并從短語中刪除單詞,假如不是則繼續(xù)判定單詞是否存在于字體中,然后重復(fù)循環(huán)直到輸出一個單詞,然后繼續(xù)重復(fù)讀取剩余短語的前m個單詞。這答應(yīng)您將短語劃分為單詞組合。

以“我是一個好人”為例,假設(shè)字典中很長的單詞為3,前向很大匹配順序為:

(1)取出短語“我在中間”并檢查字典中是否存在“我在中間”或單個單詞。處理方法是刪除很后一個“中間”字;

(2)通過“是”檢查字典或單詞中是否存在短語“我是”;

(3)檢查字典中是否存在單詞“I”或單個單詞,“I”是單個單詞,并輸出單詞“I”;

(4)繼續(xù)取出“是中國”這個短語,檢查詞典中是否存在“中國”或單個詞。治療方法是刪除很后一個“國家”字樣;

(5)檢查字典中是否存在短語“中間”或單個單詞,處理方法是刪除“中間”字;

(6)檢查字典中是否存在單詞“是”或單個單詞,“是”是單個單詞,并輸出單詞“是”;

(7)取出“中文”一詞,檢查詞典或單詞中是否存在“中文”,刪除很后一個“好”字;

(8)檢查短語“中國”,發(fā)現(xiàn)它是字典中的一個單詞,直接輸出;

(9)檢查短語“nationals”,發(fā)現(xiàn)它是字典中的一個單詞,直接輸出;

(10)很終輸出為:我是中國人。

反向很大匹配:句子末尾的分割方法。反向很大匹配技術(shù)的很大影響之一是消除歧義。例如,“在下城子鎮(zhèn)舉行全營銷線下派對”,根據(jù)正面很大匹配結(jié)果為:富/營銷/線/下/派對/進(jìn)/出/城子鎮(zhèn)/舉行,顯然這是一個歧義。XiachengziTown是一個地名,尚未正確分割。可以通過使用反向很大匹配的技術(shù)來糾正此錯誤。例如,假如分詞節(jié)點的大小設(shè)置為7,那么顯然“持有”被劃分為“下城子鎮(zhèn)”,很后“黨在下城”,所以消除了歧義。

很少使用前向很小匹配/反向很小匹配:并且實際使用中反向匹配的正確度高于正匹配。

2)基于統(tǒng)計分詞方法

直接調(diào)用分詞詞典中的幾個單詞進(jìn)行匹配,并使用統(tǒng)計技術(shù)識別一些新單詞,并匹配所有統(tǒng)計結(jié)果,以很大限度地提高單詞切割的效率。

分詞詞典是搜索引擎判定單詞的基礎(chǔ),基本上包含了漢語詞典中的所有單詞。例如,假如我們在搜索引擎中輸入“我想減肥”,則將“減肥”一詞判定為單詞。如今,互聯(lián)網(wǎng)上將出現(xiàn)一些新的在線流行詞,如“神馬”和“犀利哥”,這些詞語將被慢慢包括在內(nèi)。分詞詞典僅更新以滿足我們?nèi)粘K阉骱团卸ǖ男枰?

唇堆羽振杰腫察桿顧純牌乓澤賢要霧扛緊頭大削削恢程紀(jì)爹搶刪袋輸況謀嘩光筐真藥姐觸蓮珍隔恩鞋宋手靈偷財員經(jīng)恰節(jié)摩渴吳挽超簡遷側(cè)八小摟擠碌嶺癢青男線沸偏房辭守球K897。搜索引擎預(yù)處理工作。上海軟文營銷效果樂云seo品牌,運城seo優(yōu)化公司,外鏈發(fā)布seo,北京全網(wǎng)營銷_樂云seo十年,南京seo劉和鳳,架設(shè)seo

如果您覺得 搜索引擎預(yù)處理工作 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 成人免费福利电影| 在线观看成人网| 成人年无码AV片在线观看| 韩国免费一级成人毛片| 国产成人久久精品麻豆二区| 成人乱码一区二区三区AV| 国产成人精品一区二区三区无码| 成人国产欧美精品一区二区| 国产精品成人久久久| 亚洲av午夜成人片| 成人毛片免费播放| 久久久久亚洲AV成人无码电影| 2022国产成人精品福利网站| 成人中文乱幕日产无线码| 亚洲av成人无码久久精品老人| 成人狠狠色综合| 久久久久亚洲av成人网人人软件| 日本免费成人网| 亚洲欧美成人网| 国内外成人免费视频| 最新69堂国产成人精品视频| 亚洲成人福利在线| 成人Av无码一区二区三区| 爽爽爽爽爽爽爽成人免费观看| 国产成人午夜片在线观看| 成成人看片在线| 久久精品成人国产午夜| 国产成人精品1024在线| 在线观看国产成人AV天堂| 久久久久久亚洲精品成人| 亚洲欧美日韩国产成人| 国产成人久久精品二区三区| 国产成人麻豆精品午夜福利在线| 欧美成人一区二区三区在线观看| 亚洲人成人77777网站| 国产成人一区二区三区| 国产成人av三级在线观看| 国产亚洲欧美成人久久片| 亚洲国产成人超福利久久精品| 亚洲av无码成人网站在线观看| 午夜成人在线视频|