Python中使用ElementTree解析XML示例-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀Python中使用ElementTree解析XML示例

Python中使用ElementTree解析XML示例

2018-08-12

收藏

Python中使用ElementTree解析XML示例

這篇文章主要介紹了Python中使用ElementTree解析XML示例,本文同時講解了XML基本概念介紹、XML幾種解析方法和ElementTree解析實例,需要的朋友可以參考下

【XML基本概念介紹】

XML 指可擴展標記語言（eXtensible Markup Language）。
XML 被設計用來傳輸和存儲數據。
概念一:

代碼如下:
<foo>      # foo元素的起始標簽
</foo>     # foo元素的結束標簽
           # note: 每一個起始標簽必須有對應的結束標簽來閉合，也可以寫成<foo/>

概念二:

代碼如下:
<foo>           # 元素可以嵌套到任意參次
<bar></bar>   # bar元素為foo元素的子元素
</foo>          # 父元素foo的結束標簽

概念三:

代碼如下:
<foo lang='EN'>                  # foo元素有個lang的屬性，該屬性值為: EN；對應Python字典(Name-Value)對；
<bar id='001' lang="CH"></bar> # bar元素有個lang的屬性，該屬性值為: CH；還有個id屬性，值為:001，放置在''或“”中；
</foo>                           # bar元素中的lang屬性不會和foo元素中相沖突，每個元素都有獨立的屬性集；

概念四:

代碼如下:
<title>Learning Python</title> # 元素可以有文本內容
# Note:如果一個元素即沒有文本內容，也沒有子元素，則為空元素。

概念五:

代碼如下:
<info>                                  # info元素為根節點
    <list id='001'> A </list>           # list元素為子節點
    <list id='002'> B </list>
    <list id='003'> C </list>
</info>

概念六:

代碼如下:
<feed xmlns='http://www.w3.org/2005/Atom'> # 可以通過聲明xmlns來定義默認名字空間，feed元素處于http://www.w3.org/2005/Atom命名空間中
<title>dive into mark</title>             # title元素也是。名字空間聲明不僅會作用于當前聲明它的元素，還會影響到該元素的所有子元素
</feed>
也可以通過xmlns:prefix聲明來定義一個名字空間并取其名為prefix。
然后該名字空間中的每個元素都必須顯式地使用這個前綴(prefix)來聲明。
<atom:feed xmlns:atom='http://www.w3.org/2005/Atom'> # feed屬于命名空間atom
<atom:title>dive into mark</atom:title>             # title元素同樣屬于該命名空間
</atom:feed>                                          # xmlns(XML Name Space)

【XML幾種解析方法】

常見的XML編程接口有DOM和SAX，這兩種接口處理XML文件的方式不同，使用場合自然也就不同。

Python有三種方法解析XML: SAX，DOM，以及ElementTree:

1.SAX (Simple API for XML )

Pyhton標準庫包含SAX解析器，SAX用事件驅動模型，通過在解析XML的過程中觸發一個個的事件并調用用戶定義的回調函數來處理XML文件。SAX是一種基于事件驅動的API。利用SAX解析XML文檔牽涉到兩個部分:解析器和事件處理器。
解析器負責讀取XML文檔,并向事件處理器發送事件,如元素開始及結束事件;而事件處理器則負責對事件作出處理。
優點:SAX流式讀取XML文件，比較快，占用內存少。
缺點:需要用戶實現回調函數（handler）。

2.DOM(Document Object Model)

將XML數據在內存中解析成一個樹，通過對樹的操作來操作XML。一個DOM的解析器在解析一個XML文檔時，一次性讀取整個文檔，把文檔中所有元素保存在內存中的一個樹結構里，之后你可以利用DOM提供的不同的函數來讀取或修改文檔的內容和結構，也可以把修改過的內容寫入xml文件。
優點:使用DOM的好處是你不需要對狀態進行追蹤，因為每一個節點都知道誰是它的父節點，誰是子節點.
缺點:DOM需要將XML數據映射到內存中的樹，一是比較慢，二是比較耗內存，使用起來也比較麻煩！

3.ElementTree(元素樹)

ElementTree就像一個輕量級的DOM，具有方便友好的API。代碼可用性好，速度快，消耗內存少。
相比而言，第三種方法，即方便，又快速，我們一直用它！下面介紹用元素樹如何解析XML:

【ElementTree解析】

兩種實現

ElementTree生來就是為了處理XML ，它在Python標準庫中有兩種實現。
一種是純Python實現，例如: xml.etree.ElementTree
另外一種是速度快一點的: xml.etree.cElementTree
盡量使用C語言實現的那種，因為它速度更快，而且消耗的內存更少! 在程序中可以這樣寫:

代碼如下:
try:
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET

常用方法

代碼如下:
# 當要獲取屬性值時，用attrib方法。
# 當要獲取節點值時，用text方法。
# 當要獲取節點名時，用tag方法。

示例XML

復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>
<info>
   <intro>Book message</intro>
    <list id='001'>
        <head>bookone</head>
        <name>python check</name>
        <number>001</number>
        <page>200</page>
    </list>
    <list id='002'>
        <head>booktwo</head>
        <name>python learn</name>
        <number>002</number>
        <page>300</page>
    </list>
</info>

###########
## 加載XML
###########

方法一:加載文件

代碼如下:
root = ET.parse('book.xml')

方法二:加載字符串

代碼如下:
root = ET.fromstring(xmltext)

###########
##獲取節點
###########

方法一:獲得指定節點->getiterator()方法

代碼如下:
book_node = root.getiterator('list')

方法二:獲得指定節點->findall()方法

代碼如下:
book_node = root.findall('list')

方法三:獲得指定節點->find()方法

代碼如下:
book_node = root.find('list')

方法四:獲得兒子節點->getchildren()

代碼如下:
for node in book_node:
book_node_child = node.getchildren()[0]
print book_node_child.tag, '=> ', book_node_child.text

###########
## 例子01
###########

代碼如下:
# coding=utf-8

try:                                           # 導入模塊
    import xml.etree.cElementTree as ET
except ImportError:
    import xml.etree.ElementTree as ET

root   = ET.parse('book.xml')                 # 分析XML文件
books = root.findall('/list')                # 查找所有根目錄下的list的子節點
for book_list in books:                       # 對查找后的結果遍歷
    print "=" * 30                            # 輸出格式
    for book in book_list:                    # 對每個子節點再進行遍歷，找出里面你的屬性及值
        if book.attrib.has_key('id'):         # 一句id來做條件判斷
            print "id:", book.attrib['id']    # 根據id打印出屬性值
        print book.tag + '=> ' + book.text    # 輸出標簽及文本內容
print "=" * 30

輸出結果:

代碼如下:

==============================
head=> bookone
name=> python check
number=> 001
page=> 200
==============================
head=> booktwo
name=> python learn
number=> 002
page=> 300
==============================

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

python

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇運營商迎來大數據時代：管理和分析是大挑戰

下一篇SPSS如何進行T檢驗詳細教程

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊