python抽取指定url頁面的title方法-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀python抽取指定url頁面的title方法

python抽取指定url頁面的title方法

2018-06-28

收藏

python抽取指定url頁面的title方法

今天簡單使用了一下python的re模塊和lxml模塊，分別利用的它們提供的正則表達式和xpath來解析頁面源碼從中提取所需的title，xpath在完成這樣的小任務上效率非常好，在這里之所以又使用了一下正則表達式是因為xpath在處理一些特殊的頁面的時候會出現亂碼的情況，當然這不是xpath的原因，而是頁面本身編碼，跟utf-8轉碼之間有沖突所致，

這里看代碼：
# !/usr/bin/python
#-*-coding:utf-8-*-
'''
功能：抽取指定url的頁面內容中的title
'''
import re
import chardet
import urllib
from lxml import etree
def utf8_transfer(strs):
'''
utf8編碼轉換
'''
try:
if isinstance(strs, unicode):
   strs = strs.encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'GB2312':
   strs = strs.decode("gb2312", 'ignore').encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'utf-8':
   strs = strs.decode('utf-8', 'ignore').encode('utf-8')
except Exception, e:
print 'utf8_transfer error', strs, e
return strs
def get_title_xpath(Html):
'''
用xpath抽取網頁Title
'''
Html = utf8_transfer(Html)
Html_encoding = chardet.detect(Html)['encoding']
page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding))
title = page.xpath('/html/head/title/text()')
try:
title = title[0].strip()
except IndexError:
print 'Nothing'
print title
def get_title(Html):
'''
用re抽取網頁Title
'''
Html = utf8_transfer(Html)
compile_rule = ur'<title>.*</title>'
title_list = re.findall(compile_rule, Html)
if title_list == []:
title = ''
else:
title = title_list[0][7:-8]
print title
if __name__ == '__main__':
    url = 'http://www.baidu.com'
    html = urllib.urlopen(url).read()
    new_html = utf8_transfer(html)
    try:
        get_title_xpath(new_html)
        get_title(new_html)
    except Exception, e:
        print e
下面是結果：
百度一下，你就知道
百度一下，你就知道
簡單的小實踐，繼續學習，歡迎交流。
以上這篇python抽取指定url頁面的title方法就是小編分享給大家的全部內容了，希望能給大家一個參考

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

xpath python 正則表達式

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇R語言函數報錯繼續執行方法

下一篇區塊鏈憑什么這么火

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊