python中利用xml.dom模塊解析xml的方法教程-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀python中利用xml.dom模塊解析xml的方法教程

python中利用xml.dom模塊解析xml的方法教程

2018-04-01

收藏

python中利用xml.dom模塊解析xml的方法教程

一、什么是xml？有何特征？
xml即可擴展標記語言，它可以用來標記數據、定義數據類型，是一種允許用戶對自己的標記語言進行定義的源語言。

例子：del.xml
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
   <caption>test</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

從結構上，很像HTML超文本標記語言。但他們被設計的目的是不同的，超文本標記語言被設計用來顯示數據，其焦點是數據的外觀。它被設計用來傳輸和存儲數據，其焦點是數據的內容。

那么它有如下特征：

      ?它是有標簽對組成， <aa></aa>

      ?標簽可以有屬性： <aa id='123'></aa>

      ?標簽對可以嵌入數據： <aa>abc</aa>

      ?標簽可以嵌入子標簽（具有層級關系）

二、獲得標簽屬性
#coding: utf-8
import xml.dom.minidom
dom = xml.dom.minidom.parse("del.xml") #打開xml文檔

root = dom.documentElement    #得到xml文檔對象
print "nodeName:", root.nodeName #每一個結點都有它的nodeName，nodeValue，nodeType屬性
print "nodeValue:", root.nodeValue #nodeValue是結點的值，只對文本結點有效
print "nodeType:", root.nodeType
print "ELEMENT_NODE:", root.ELEMENT_NODE

nodeType是結點的類型。catalog是ELEMENT_NODE類型

現在有以下幾種：
'ATTRIBUTE_NODE'

'CDATA_SECTION_NODE'

'COMMENT_NODE'

'DOCUMENT_FRAGMENT_NODE'

'DOCUMENT_NODE'

'DOCUMENT_TYPE_NODE'

'ELEMENT_NODE'

'ENTITY_NODE'

'ENTITY_REFERENCE_NODE'

'NOTATION_NODE'

'PROCESSING_INSTRUCTION_NODE'

'TEXT_NODE'

運行結果
nodeName: catalog

nodeValue: None

nodeType: 1

ELEMENT_NODE: 1

三、獲得子標簽
#coding: utf-8
import xml.dom.minidom
dom = xml.dom.minidom.parse("del.xml")

root = dom.documentElement
bb = root.getElementsByTagName('maxid')
print type(bb)
print bb
b = bb[0]
print b.nodeName
print b.nodeValue

運行結果
<class 'xml.dom.minicompat.NodeList'>

[<DOM Element: maxid at 0x2707a48>]

maxid

None

四、獲得標簽屬性值
#coding: utf-8
import xml.dom.minidom
dom = xml.dom.minidom.parse("del.xml")

root = dom.documentElement
itemlist = root.getElementsByTagName('login')
item = itemlist[0]
print item.getAttribute("username")
print item.getAttribute("passwd")

itemlist = root.getElementsByTagName("item")
item = itemlist[0]     #通過在itemlist中的位置區分
print item.getAttribute("id")

item2 = itemlist[1]     #通過在itemlist中的位置區分
print item2.getAttribute("id")

運行結果

pytest

123456

4

2

五、獲得標簽對之間的數據
#coding: utf-8
import xml.dom.minidom
dom = xml.dom.minidom.parse("del.xml")

root = dom.documentElement
itemlist = root.getElementsByTagName('caption')

item = itemlist[0]
print item.firstChild.data

item2 = itemlist[1]
print item2.firstChild.data

運行結果
Python

test

六、例子
<?xml version="1.0" encoding="UTF-8" ?>
<users>
<user id="1000001">
<username>Admin</username>
<email>admin@live.cn</email>
<age>23</age>
<sex>boy</sex>
</user>
<user id="1000002">
<username>Admin2</username>
<email>admin2@live.cn</email>
<age>22</age>
<sex>boy</sex>
</user>
<user id="1000003">
<username>Admin3</username>
<email>admin3@live.cn</email>
<age>27</age>
<sex>boy</sex>
</user>
<user id="1000004">
<username>Admin4</username>
<email>admin4@live.cn</email>
<age>25</age>
<sex>girl</sex>
</user>
<user id="1000005">
<username>Admin5</username>
<email>admin5@live.cn</email>
<age>20</age>
<sex>boy</sex>
</user>
<user id="1000006">
<username>Admin6</username>
<email>admin6@live.cn</email>
<age>23</age>
<sex>girl</sex>
</user>
</users>

把name、email、age、sex輸出

參考代碼
# -*- coding:utf-8 -*-
from xml.dom import minidom

def get_attrvalue(node, attrname):
return node.getAttribute(attrname) if node else ''

def get_nodevalue(node, index = 0):
return node.childNodes[index].nodeValue if node else ''

def get_xmlnode(node, name):
return node.getElementsByTagName(name) if node else []

def get_xml_data(filename = 'user.xml'):
doc = minidom.parse(filename)
root = doc.documentElement

user_nodes = get_xmlnode(root, 'user')
print "user_nodes:", user_nodes

user_list=[]
for node in user_nodes:
user_id = get_attrvalue(node, 'id')
node_name = get_xmlnode(node, 'username')
node_email = get_xmlnode(node, 'email')
node_age = get_xmlnode(node, 'age')
node_sex = get_xmlnode(node, 'sex')

user_name =get_nodevalue(node_name[0])
user_email = get_nodevalue(node_email[0])
user_age = int(get_nodevalue(node_age[0]))
user_sex = get_nodevalue(node_sex[0])

user = {}
user['id'] , user['username'] , user['email'] , user['age'] , user['sex'] = (
   int(user_id), user_name , user_email , user_age , user_sex
)
user_list.append(user)
return user_list

def test_load_xml():
user_list = get_xml_data()
for user in user_list :
print '-----------------------------------------------------'
if user:
   user_str='No.:\t%d\nname:\t%s\nsex:\t%s\nage:\t%s\nEmail:\t%s' % (int(user['id']) , user['username'], user['sex'] , user['age'] , user['email'])
   print user_str

if __name__ == "__main__":
test_load_xml()

結果
C:\Users\wzh94434\Desktop\xml>python user.py

user_nodes: [<DOM Element: user at 0x2758c48>, <DOM Element: user at 0x2756288>,

<DOM Element: user at 0x2756888>, <DOM Element: user at 0x2756e88>, <DOM Elemen

t: user at 0x275e4c8>, <DOM Element: user at 0x275eac8>]

-----------------------------------------------------

No.: 1000001

name: Admin

sex: boy

age: 23

Email: admin@live.cn

-----------------------------------------------------

No.: 1000002

name: Admin2

sex: boy

age: 22

Email: admin2@live.cn

-----------------------------------------------------

No.: 1000003

name: Admin3

sex: boy

age: 27

Email: admin3@live.cn

-----------------------------------------------------

No.: 1000004

name: Admin4

sex: gril

age: 25

Email: admin4@live.cn

-----------------------------------------------------

No.: 1000005

name: Admin5

sex: boy

age: 20

Email: admin5@live.cn

-----------------------------------------------------

No.: 1000006

name: Admin6

sex: gril

age: 23

Email: admin6@live.cn　

七、總結
minidom.parse(filename)

加載讀取XML文件

doc.documentElement

獲取XML文檔對象

node.getAttribute(AttributeName)

獲取XML節點屬性值

node.getElementsByTagName(TagName)

獲取XML節點對象集合

node.childNodes #返回子節點列表。

node.childNodes[index].nodeValue

獲取XML節點值

node.firstChild

#訪問第一個節點。等價于pagexml.childNodes[0]

doc = minidom.parse(filename)

doc.toxml('UTF-8')

返回Node節點的xml表示的文本

Node.attributes["id"]

a.name #就是上面的 "id"

a.value #屬性的值

訪問元素屬性

好了，以上就是這篇文章的全部內容了，希望本文的內容對大家的學習或者工作能帶來一定的幫助

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

python 特征

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇Python驗證碼識別處理實例

下一篇什么叫大數據分析？大數據被推崇的原因

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊