Python用list或dict字段模式讀取文件的方法
Python用于處理文本數據絕對是個利器,極為簡單的讀取、分割、過濾、轉換支持,使得開發者不需要考慮繁雜的流文件處理過程(相對于JAVA來說的,嘻嘻)。博主自己工作中,一些復雜的文本數據處理計算,包括在HADOOP上編寫Streaming程序,均是用Python完成。
而在文本處理的過程中,將文件加載內存中是第一步,這就涉及到怎樣將文件中的某一列映射到具體的變量的過程,最最愚笨的方法,就是按照字段的下標進行引用,比如這樣子:
# fields是讀取了一行,并且按照分隔符分割之后的列表
user_id=fields[0]
user_name=fields[1]
user_type=fields[2]
如果按照這種方式讀取,一旦文件有順序、增減列的變動,代碼的維護是個噩夢,這種代碼一定要杜絕。
本文推薦兩種優雅的方式來讀取數據,都是先配置字段模式,然后按照模式讀取,而模式則有字典模式和列表模式兩種形式;
讀取文件,按照分隔符分割成字段數據列表
首先讀取文件,按照分隔符分割每一行的數據,返回字段列表,以便后續處理。
代碼如下:
defread_file_data(filepath):
'''根據路徑按行讀取文件, 參數filepath:文件的絕對路徑
@param filepath: 讀取文件的路徑
@return: 按\t分割后的每行的數據列表
'''
fin=open(filepath,'r')
forlineinfin:
try:
line=line[:-1]
ifnotline:continue
except:
continue
try:
fields=line.split("\t")
except:
continue
# 拋出當前行的分割列表
yieldfields
fin.close()
使用yield關鍵字,每次拋出單個行的分割數據,這樣在調度程序中可以用for fields in read_file_data(fpath)的方式讀取每一行。
映射到模型之方法1:使用配置好的字典模式,裝配讀取的數據列表
這種方法配置一個{“字段名”: 字段位置}的字典作為數據模式,然后按照該模式裝配讀取的列表數據,最后實現用字典的方式訪問數據。
所使用的函數:
@staticmethod
defmap_fields_dict_schema(fields, dict_schema):
"""根據
字段的模式,返回模式和數據值的對應值;例如 fields為['a','b','c'],schema為{'name':0, 'age':1},那么就返回{'name':'a','age':'b'}
@param fields: 包含有數據的數組,一般是通過對一個Line String通過按照\t分割得到
@param dict_schema: 一個詞典,key是
字段名稱,value是
字段的位置;
@return: 詞典,key是
字段名稱,value是
字段值
"""
pdict={}
forfstr, findexindict_schema.iteritems():
pdict[fstr]=str(fields[int(findex)])
returnpdict
有了該方法和之前的方法,可以用以下的方式讀取數據:
# coding:utf8
"""
@author: www.crazyant.net
測試使用字典模式加載數據列表
優點:對于多列文件,只通過配置需要讀取的
字段,就能讀取對應列的數據
"""
importfile_util
importpprint
# 配置好的要讀取的字典模式,可以只配置自己關心的列的位置
dict_schema={"userid":0,"username":1,"usertype":2}
forfieldsinfile_util.FileUtil.read_file_data("userfile.txt"):
dict_fields=file_util.FileUtil.map_fields_dict_schema(fields, dict_schema)
pprint.pprint(dict_fields)
輸出結果:
{'userid':'1','username':'name1','usertype':'0'}
{'userid':'2','username':'name2','usertype':'1'}
{'userid':'3','username':'name3','usertype':'2'}
{'userid':'4','username':'name4','usertype':'3'}
{'userid':'5','username':'name5','usertype':'4'}
{'userid':'6','username':'name6','usertype':'5'}
{'userid':'7','username':'name7','usertype':'6'}
{'userid':'8','username':'name8','usertype':'7'}
{'userid':'9','username':'name9','usertype':'8'}
{'userid':'10','username':'name10','usertype':'9'}
{'userid':'11','username':'name11','usertype':'10'}
{'userid':'12','username':'name12','usertype':'11'}
映射到模型之方法2:使用配置好的列表模式,裝配讀取的數據列表
如果需要讀取文件所有列,或者前面的一些列,那么配置字典模式優點復雜,因為需要給每個字段配置索引位置,并且這些位置是從0開始完后數的,屬于低級勞動,需要消滅。
列表模式應命運而生,先將配置好的列表模式轉換成字典模式,然后按字典加載就可以實現。
轉換模式,以及用按列表模式讀取的代碼:
@staticmethod
deftransform_list_to_dict(para_list):
"""把['a', 'b']轉換成{'a':0, 'b':1}的形式
@param para_list: 列表,里面是每個列對應的
字段名
"""
res_dict={}
idx=0
whileidx <len(para_list):
res_dict[str(para_list[idx]).strip()]=idx
idx+=1
returnres_dict
@staticmethod
defmap_fields_list_schema(fields, list_schema):
"""根據
字段的模式,返回模式和數據值的對應值;例如 fields為['a','b','c'],schema為{'name', 'age'},那么就返回{'name':'a','age':'b'}
@param fields: 包含有數據的數組,一般是通過對一個Line String通過按照\t分割得到
@param list_schema: 列名稱的列表list
@return: 詞典,key是
字段名稱,value是
字段值
"""
dict_schema=FileUtil.transform_list_to_dict(list_schema)
returnFileUtil.map_fields_dict_schema(fields, dict_schema)
使用的時候,可以用列表的形式配置模式,不需要配置索引更加簡潔:
# coding:utf8
"""
@author: www.crazyant.net
測試使用列表模式加載數據列表
優點:如果讀取所有列,用列表模式只需要按順序寫出各個列的
字段名就可以
"""
importfile_util
importpprint
# 配置好的要讀取的列表模式,只能配置前面的列,或者所有咧
list_schema=["userid","username","usertype"]
forfieldsinfile_util.FileUtil.read_file_data("userfile.txt"):
dict_fields=file_util.FileUtil.map_fields_list_schema(fields, list_schema)
pprint.pprint(dict_fields)
運行結果和字典模式的完全一樣。
file_util.py全部代碼
以下是file_util.py中的全部代碼,可以放在自己的公用類庫中使用
# -*- encoding:utf8 -*-
'''
@author: www.crazyant.net
@version: 2014-12-5
'''
classFileUtil(object):
'''文件、路徑常用操作方法
'''
@staticmethod
defread_file_data(filepath):
'''根據路徑按行讀取文件, 參數filepath:文件的絕對路徑
@param filepath: 讀取文件的路徑
@return: 按\t分割后的每行的數據列表
'''
fin=open(filepath,'r')
forlineinfin:
try:
line=line[:-1]
ifnotline:continue
except:
continue
try:
fields=line.split("\t")
except:
continue
# 拋出當前行的分割列表
yieldfields
fin.close()
@staticmethod
deftransform_list_to_dict(para_list):
"""把['a', 'b']轉換成{'a':0, 'b':1}的形式
@param para_list: 列表,里面是每個列對應的
字段名
"""
res_dict={}
idx=0
whileidx <len(para_list):
res_dict[str(para_list[idx]).strip()]=idx
idx+=1
returnres_dict
@staticmethod
defmap_fields_list_schema(fields, list_schema):
"""根據
字段的模式,返回模式和數據值的對應值;例如 fields為['a','b','c'],schema為{'name', 'age'},那么就返回{'name':'a','age':'b'}
@param fields: 包含有數據的數組,一般是通過對一個Line String通過按照\t分割得到
@param list_schema: 列名稱的列表list
@return: 詞典,key是
字段名稱,value是
字段值
"""
dict_schema=FileUtil.transform_list_to_dict(list_schema)
returnFileUtil.map_fields_dict_schema(fields, dict_schema)
@staticmethod
defmap_fields_dict_schema(fields, dict_schema):
"""根據
字段的模式,返回模式和數據值的對應值;例如 fields為['a','b','c'],schema為{'name':0, 'age':1},那么就返回{'name':'a','age':'b'}
@param fields: 包含有數據的數組,一般是通過對一個Line String通過按照\t分割得到
@param dict_schema: 一個詞典,key是
字段名稱,value是
字段的位置;
@return: 詞典,key是
字段名稱,value是
字段值
"""
pdict={}
forfstr, findexindict_schema.iteritems():
pdict[fstr]=str(fields[int(findex)])
returnpdict
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家學習或者使用python能有一定的幫助
CDA數據分析師考試相關入口一覽(建議收藏):
? 想報名CDA認證考試,點擊>>>
“CDA報名”
了解CDA考試詳情;
? 想學習CDA考試教材,點擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點擊>>> “CDA含金量” 了解CDA考試詳情;