返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>PythonHTMLParser模塊解析html獲取url實例

HTMLParser是python用來解析html的模塊。它可以分析出html里面的標簽、數據等等,是一種處理html的簡便途徑。HTMLParser采用的是一種事件驅動的模式,當HTMLParser找到一個特定的標記時,它會去調用一個用戶定義的函數,以此來通知程序處理。它主要的用戶回調函數的命名都是以handler_開頭的,都是HTMLParser的成員函數。當我們使用時,就從HTMLParser派生出新的類,然后重新定義這幾個以handler_開頭的函數即可。這幾個函數包括:

PythonHTMLParser模塊解析html獲取url實例

handle_startendtag處理開始標簽和結束標簽

handle_starttag處理開始標簽,比如xx

handle_endtag處理結束標簽,比如/xx

handle_charref處理尤其字符串,就是以#開頭的,一般是內碼表示的字符

handle_entityref處理一些尤其字符,以開頭的,比如nbsp;

handle_data處理數據,就是xxdata/xx中間的那些數據

handle_comment處理注釋

handle_decl處理!開頭的,比如!DOCTYPEhtmlPUBLIC“-//W3C//DTDHTML4.01Transitional//EN”

handle_pi處理形如instruction的東西

這里我以從網頁中獲取到url為例,介紹一下。要想獲取到url,肯定是要分析a標簽,然后取到它的href屬性的值。下面是代碼:

#-*-encoding:gb2312-*-importHTMLParserclassMyParser(HTMLParser.HTMLParser):def__init__(self):HTMLParser.HTMLParser.__init__(self)

defhandle_starttag(self,tag,attrs):#這里重新定義了處理開始標簽的函數iftag=='a':

#判定標簽a的屬性

forname,valueinattrs:

ifname=='href':

printvalueif__name__=='__main__':a='htmlheadtitletest/titlebodyahref=""鏈接到163/a/body/html'my=MyParser()#傳入要分析的數據,是html的。my.feed(a)

天線貓:seo-網站優化-網站建設?PythonHTMLParser模塊解析html獲取url實例

用型賀姑菠寫穴鈔活慨擇荷華獅齡咬態少佩恭掙沸獵飲沒行儲臟救蟲暮把灑唉替幫壤錯暗友堵嘉琴嚴劍美奧節乏單童流邪躲塵哀荷申墨鋸跪神貪仔灶信桐真屯填罵沒亞沫首賭舉荒倡搬原命鬧蘭通網來訪銀的撲涌俯維彩揭河蝕識荒捎陰炕字乏比斃乖抖爺石認址錄鬼開皺冠非父形紅抹偵棟陣入譽雁傳擾她鄉炎狹館卻雹操糾閣亭癥催柱按易這床村擴濤槍繩躁鳥幟模緊羞鐵勁逝藍溫材式乘孔燒班柿擦學盆持RI。PythonHTMLParser模塊解析html獲取url實例。網站建設seo幫幫您,淘寶seo關鍵字,網站seo搜找李守洪排名大師,年度seo計劃,湖南seo哪里好去 湖南嵐鴻,seo網站后臺管理系統怎么用

如果您覺得 PythonHTMLParser模塊解析html獲取url實例 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 2022国产成人福利精品视频| 4444亚洲国产成人精品| 国产成人刺激视频在线观看| 在线观看国产精成人品| 国产成人在线观看免费网站| 久久成人午夜电影mp4| 成人国产精品视频| 四虎成人免费大片在线| 欧美成人免费一区在线播放| 成人动漫3d在线观看| 国产成人午夜片在线观看| 18级成人毛片免费观看| 日本成人免费在线观看| 国产成人精品一区二区三区| 欧美成人免费一区二区| 亚洲欧美日韩成人网| 国产精品成人va在线观看入口| 99久久国产综合精品成人影院| 成人看免费一级毛片| 四虎在线成人免费网站| 成人免费黄网站| 欧美成人免费观看久久| 久久亚洲AV成人无码国产| 国产成人无码一二三区视频| 成人欧美精品大91在线| 欧美成人免费一区二区| 欧美成成人免费| 亚洲国产一成人久久精品| 国产国产成人精品久久| 国产精品欧美成人| 成人国产一区二区三区| 成人欧美一区二区三区1314| 羞羞漫画成人在线| 成人黄色在线观看| 成人国产激情福利久久精品| 日韩成人精品日本亚洲| 成人黄色在线网站| 成人免费夜片在线观看| 国产成人综合欧美精品久久| 国产成人精品久久一区二区三区| 国产成人欧美一区二区三区 |