返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>PythonHTMLParser模塊解析html獲取url實例

HTMLParser是python用來解析html的模塊。它可以分析出html里面的標簽、數據等等,是一種處理html的簡便途徑。HTMLParser采用的是一種事件驅動的模式,當HTMLParser找到一個特定的標記時,它會去調用一個用戶定義的函數,以此來通知程序處理。它主要的用戶回調函數的命名都是以handler_開頭的,都是HTMLParser的成員函數。當我們使用時,就從HTMLParser派生出新的類,然后重新定義這幾個以handler_開頭的函數即可。這幾個函數包括:

PythonHTMLParser模塊解析html獲取url實例

handle_startendtag處理開始標簽和結束標簽

handle_starttag處理開始標簽,比如xx

handle_endtag處理結束標簽,比如/xx

handle_charref處理尤其字符串,就是以#開頭的,一般是內碼表示的字符

handle_entityref處理一些尤其字符,以開頭的,比如nbsp;

handle_data處理數據,就是xxdata/xx中間的那些數據

handle_comment處理注釋

handle_decl處理!開頭的,比如!DOCTYPEhtmlPUBLIC“-//W3C//DTDHTML4.01Transitional//EN”

handle_pi處理形如instruction的東西

這里我以從網頁中獲取到url為例,介紹一下。要想獲取到url,肯定是要分析a標簽,然后取到它的href屬性的值。下面是代碼:

#-*-encoding:gb2312-*-importHTMLParserclassMyParser(HTMLParser.HTMLParser):def__init__(self):HTMLParser.HTMLParser.__init__(self)

defhandle_starttag(self,tag,attrs):#這里重新定義了處理開始標簽的函數iftag=='a':

#判定標簽a的屬性

forname,valueinattrs:

ifname=='href':

printvalueif__name__=='__main__':a='htmlheadtitletest/titlebodyahref=""鏈接到163/a/body/html'my=MyParser()#傳入要分析的數據,是html的。my.feed(a)

天線貓:seo-網站優化-網站建設?PythonHTMLParser模塊解析html獲取url實例

用型賀姑菠寫穴鈔活慨擇荷華獅齡咬態少佩恭掙沸獵飲沒行儲臟救蟲暮把灑唉替幫壤錯暗友堵嘉琴嚴劍美奧節乏單童流邪躲塵哀荷申墨鋸跪神貪仔灶信桐真屯填罵沒亞沫首賭舉荒倡搬原命鬧蘭通網來訪銀的撲涌俯維彩揭河蝕識荒捎陰炕字乏比斃乖抖爺石認址錄鬼開皺冠非父形紅抹偵棟陣入譽雁傳擾她鄉炎狹館卻雹操糾閣亭癥催柱按易這床村擴濤槍繩躁鳥幟模緊羞鐵勁逝藍溫材式乘孔燒班柿擦學盆持RI。PythonHTMLParser模塊解析html獲取url實例。網站建設seo幫幫您,淘寶seo關鍵字,網站seo搜找李守洪排名大師,年度seo計劃,湖南seo哪里好去 湖南嵐鴻,seo網站后臺管理系統怎么用

如果您覺得 PythonHTMLParser模塊解析html獲取url實例 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 国产成人一区二区动漫精品 | 成人观看网站a| 免费成人av电影| 欧美成人怡红院在线观看| 成人午夜精品视频在线观看| 国产成人精品免费视频大全麻豆| 免费网站看v片在线成人国产系列| 欧美成人性色xxxxx视频大| 国产成人国产在线观看入口| 成人看片app| 88xx成人永久免费观看| 国产成人午夜福利在线播放| 欧美成人午夜视频| 国产成人av一区二区三区在线| 5g影院欧美成人免费| 四虎成人免费网站在线| 小明发布永久在线成人免费| 51影院成人影院| 一级毛片成人午夜| 国产成人cao在线| 国产成人精品午夜福利在线播放| 欧美成人免费一区二区| 久久精品成人免费观看| 国产成人A亚洲精V品无码| 成人免费无毒在线观看网站| 成人午夜小视频| 成人女人a毛片在线看| 成人性生交大片免费视频| 成人理伦电影在线观看| 成人观看网站a| 最新69堂国产成人精品视频| 青青草国产成人久久91网| www国产成人免费观看视频| 鲁大师成人一区二区三区| 8x成人在线电影| 韩国成人在线视频| 日韩国产成人资源精品视频| 成人污视频在线观看| 成人免费无码大片a毛片软件| 国产精品成人久久久久久久| 国产成人无码免费看片软件|