熱線電話:13121318867

登錄
首頁精彩閱讀python處理html轉義字符的方法詳解
python處理html轉義字符的方法詳解
2018-02-11
收藏

python處理html轉義字符的方法詳解

本文實例講述了python處理html轉義字符的方法。分享給大家供大家參考,具體如下:

最近在用Python處理網頁數據時,經常遇到一些html轉義字符(也叫html字符實體),例如<> 等。字符實體一般是為了表示網頁中的預留字符,比如>用>表示,防止被瀏覽器認為是標簽,具體參考w3school的HTML 字符實體。雖然很有用,但是它們會極度影響對于網頁數據的解析。為了處理這些轉義字符,有如下解決方案:

1、使用HTMLParser處理    
import HTMLParser
html_cont = " asdfg>123<"
html_parser = HTMLParser.HTMLParser()
new_cont = html_parser.unescape(html_cont)
print new_cont #new_cont = " asdfg>123<"

轉換回去(只是空格轉不回去了):    
import cgi
new_cont = cgi.escape(new_cont)
print new_cont #new_cont = " asdfg>123<"

2、直接挨個替換    
html_cont = " asdfg>123<"
new_cont = new_cont.replace(' ', ' ')
print new_cont #new_cont = " asdfg>123<"
new_cont = new_cont.replace('>', '>')
print new_cont #new_cont = " asdfg>123<"
new_cont = new_cont.replace('<', '<')
print new_cont #new_cont = " asdfg>123<"

不知道還有沒有更好的辦法。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢