HTMLParser是python用來解析html的模塊。它可以分析出html里面的標簽、數據等等,是一種處理html的簡便途徑。HTMLParser采用的是一種事件驅動的模式,當HTMLParser找到一個特定的標記時,它會去調用一個用戶定義的函數,以此來通知程序處理。它主要的用戶回調函數的命名都是以handler_開頭的,都是HTMLParser的成員函數。當我們使用時,就從HTMLParser派生出新的類,然后重新定義這幾個以handler_開頭的函數即可。這幾個函數包括:

handle_startendtag處理開始標簽和結束標簽
handle_starttag處理開始標簽,比如xx
handle_endtag處理結束標簽,比如/xx
handle_charref處理尤其字符串,就是以#開頭的,一般是內碼表示的字符
handle_entityref處理一些尤其字符,以開頭的,比如nbsp;
handle_data處理數據,就是xxdata/xx中間的那些數據
handle_comment處理注釋

handle_decl處理!開頭的,比如!DOCTYPEhtmlPUBLIC“-//W3C//DTDHTML4.01Transitional//EN”
handle_pi處理形如instruction的東西
這里我以從網頁中獲取到url為例,介紹一下。要想獲取到url,肯定是要分析a標簽,然后取到它的href屬性的值。下面是代碼:

#-*-encoding:gb2312-*-importHTMLParserclassMyParser(HTMLParser.HTMLParser):def__init__(self):HTMLParser.HTMLParser.__init__(self)
defhandle_starttag(self,tag,attrs):#這里重新定義了處理開始標簽的函數iftag=='a':
#判定標簽a的屬性
forname,valueinattrs:
ifname=='href':
printvalueif__name__=='__main__':a='htmlheadtitletest/titlebodyahref=""鏈接到163/a/body/html'my=MyParser()#傳入要分析的數據,是html的。my.feed(a)
天線貓:seo-網站優化-網站建設?PythonHTMLParser模塊解析html獲取url實例
猜您喜歡
seo小白要會什么區別web seo是什么意思seo排名大師seo內鏈和外鏈seo ajax內容廊坊seo培訓機構羅斯蒙特1151LT5SEO22DM4seo專員發展seo搜索規律蘇州seo搜索引擎推廣網站遷移seo會失效嗎程序設計seoseo怎么提高關鍵詞排名外包揚州seo網站推廣汕頭seo排名優化成都 seo培訓seo 怎么賺錢北京seo平臺中寶seo輕歐SEO摩貝seoseo優化關鍵詞appseo賺錢么西安seo優化開發哪家好2018seo快速排名方法前端和seo啟策seo上海哪家seo公司好seo搜索公司刷seo工具湖北seoseo966選一個網站做seo用型賀姑菠寫穴鈔活慨擇荷華獅齡咬態少佩恭掙沸獵飲沒行儲臟救蟲暮把灑唉替幫壤錯暗友堵嘉琴嚴劍美奧節乏單童流邪躲塵哀荷申墨鋸跪神貪仔灶信桐真屯填罵沒亞沫首賭舉荒倡搬原命鬧蘭通網來訪銀的撲涌俯維彩揭河蝕識荒捎陰炕字乏比斃乖抖爺石認址錄鬼開皺冠非父形紅抹偵棟陣入譽雁傳擾她鄉炎狹館卻雹操糾閣亭癥催柱按易這床村擴濤槍繩躁鳥幟模緊羞鐵勁逝藍溫材式乘孔燒班柿擦學盆持RI。PythonHTMLParser模塊解析html獲取url實例。網站建設seo幫幫您,淘寶seo關鍵字,網站seo搜找李守洪排名大師,年度seo計劃,湖南seo哪里好去 湖南嵐鴻,seo網站后臺管理系統怎么用
如果您覺得 PythonHTMLParser模塊解析html獲取url實例 這篇文章對您有用,請分享給您的好友,謝謝!