python使用chardet判斷字符串編碼的方法-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀python使用chardet判斷字符串編碼的方法

python使用chardet判斷字符串編碼的方法

2018-02-06

收藏

python使用chardet判斷字符串編碼的方法

本文實例講述了python使用chardet判斷字符串編碼的方法。分享給大家供大家參考。具體分析如下：

最近利用python抓取一些網上的數據，遇到了編碼的問題。非常頭痛，總結一下用到的解決方案。

linux中vim下查看文件編碼的命令 set fileencoding
python中一個強力的編碼檢測包 chardet ，使用方法非常簡單。linux下利用pip install chardet實現簡單安裝

import chardet
f = open('file','r')
fencoding=chardet.detect(f.read())
print fencoding

fencoding輸出格式 {'confidence': 0.96630842899499614, 'encoding': 'GB2312'} ，只能判斷是否為某種編碼的概率。比較準確的結果了。輸入參數為str類型。

了解python中str的編碼后可以利用decode和encode來實現編碼的轉換。

一般流程是str利用decode方法根據str的編碼將其解碼為unicode字符串類型，然后利用encode根據特定的編碼將unicode字符串類型轉換為特定的編碼。python中str和unicode屬于兩種不同的類型，如下。

一般情況下window默認編碼gbk，linux默認編碼utf8
python編程中系統編碼，python編碼，文件編碼的概念。

系統編碼：默認寫源碼的編輯器的編碼方式。它代表源碼文件內的所有內容都是根據詞方式編碼成二進制碼流。存入到磁盤中的。linux下通過locale命令查看。

python編碼：指python內設置的解碼方式。如果不設定的話，python默認的是ascii解碼方式。如果python源代碼文件中不出現中文的話，這個地方怎么設定應該不會問題。

設定方法：在源碼文件開頭（一定是第一行）：#-*-coding:UTF-8-*-，源碼文件的設置解碼方式是UTF-8 或者
import sys
reload(sys)
sys.setdefaultencoding('UTF-8')

文件編碼：文本的編碼方式，linux下vim利用set fileencoding查看。

一般情況下輸出亂碼的原因就是沒有按照系統解碼的方式進行編碼。

比如print s, s類型為str，linux系統下系統默認編碼為utf8編碼，s在輸出前就應該編碼為utf8。如果s為gbk編碼就應該這樣輸出。print s.decode('gbk').encode('utf8')才能輸出中文。

window下面情況相同，window默認編碼為gbk編碼，所以s輸出前必須編碼為gbk。

python處理中一般處理unicode類型。這樣輸出前直接編碼即可。

希望本文所述對大家的Python程序設計有所幫助。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

python

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇Python多線程實現同步的四種方式

下一篇Python3 大作戰之 encode 與 decode 講解

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊