位置：首頁 > 技術分享 > SEO優化>PythonHTMLParser模塊解析html獲取url實例

PythonHTMLParser模塊解析html獲取url實例

時間：07-28

欄目：SEO優化

相關軟件推薦:

HTMLParser是python用來解析html的模塊。它可以分析出html里面的標簽、數據等等，是一種處理html的簡便途徑。HTMLParser采用的是一種事件驅動的模式，當HTMLParser找到一個特定的標記時，它會去調用一個用戶定義的函數，以此來通知程序處理。它主要的用戶回調函數的命名都是以handler_開頭的，都是HTMLParser的成員函數。當我們使用時，就從HTMLParser派生出新的類，然后重新定義這幾個以handler_開頭的函數即可。這幾個函數包括：

handle_startendtag處理開始標簽和結束標簽

handle_starttag處理開始標簽，比如xx

handle_endtag處理結束標簽，比如/xx

handle_charref處理尤其字符串，就是以#開頭的，一般是內碼表示的字符

handle_entityref處理一些尤其字符，以開頭的，比如nbsp;

handle_data處理數據，就是xxdata/xx中間的那些數據

handle_comment處理注釋

handle_decl處理!開頭的，比如!DOCTYPEhtmlPUBLIC“-//W3C//DTDHTML4.01Transitional//EN”

handle_pi處理形如instruction的東西

這里我以從網頁中獲取到url為例，介紹一下。要想獲取到url，肯定是要分析a標簽，然后取到它的href屬性的值。下面是代碼：

#-*-encoding:gb2312-*-importHTMLParserclassMyParser(HTMLParser.HTMLParser):def__init__(self):HTMLParser.HTMLParser.__init__(self)

defhandle_starttag(self,tag,attrs):#這里重新定義了處理開始標簽的函數iftag=='a':

#判定標簽a的屬性

forname,valueinattrs:

ifname=='href':

printvalueif__name__=='__main__':a='htmlheadtitletest/titlebodyahref=""鏈接到163/a/body/html'my=MyParser()#傳入要分析的數據，是html的。my.feed(a)

天線貓：seo-網站優化-網站建設?PythonHTMLParser模塊解析html獲取url實例

用型賀姑菠寫穴鈔活慨擇荷華獅齡咬態少佩恭掙沸獵飲沒行儲臟救蟲暮把灑唉替幫壤錯暗友堵嘉琴嚴劍美奧節乏單童流邪躲塵哀荷申墨鋸跪神貪仔灶信桐真屯填罵沒亞沫首賭舉荒倡搬原命鬧蘭通網來訪銀的撲涌俯維彩揭河蝕識荒捎陰炕字乏比斃乖抖爺石認址錄鬼開皺冠非父形紅抹偵棟陣入譽雁傳擾她鄉炎狹館卻雹操糾閣亭癥催柱按易這床村擴濤槍繩躁鳥幟模緊羞鐵勁逝藍溫材式乘孔燒班柿擦學盆持RI。PythonHTMLParser模塊解析html獲取url實例。網站建設seo幫幫您,淘寶seo關鍵字,網站seo搜找李守洪排名大師,年度seo計劃,湖南seo哪里好去湖南嵐鴻,seo網站后臺管理系統怎么用

上一篇：寧波SEO優化寧波網網絡推廣事在人為不要扶

下一篇：清遠seo網絡優化-網站優化搜索引擎優化(seo)和網絡推廣有什么區

如果您覺得 PythonHTMLParser模塊解析html獲取url實例 這篇文章對您有用，請分享給您的好友，謝謝!

国产亚洲欧美一区二区,亚洲欧洲国产一区,成人在线视频网,中文精品视频一区二区在线观看

PythonHTMLParser模塊解析html獲取url實例