使用Python連接MySQL數據庫-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀使用Python連接MySQL數據庫

使用Python連接MySQL數據庫

2018-01-10

收藏

使用Python連接MySQL數據庫

本篇文章使用python中的pymysql庫連接MySQL數據庫，并完成建表，數據寫入和查詢的過程。為了保證內容的完整性，我們將內容分為兩個階段，第一階段簡單介紹數據的爬取過程?？催^之前爬蟲文章的同學請直接忽略。第二階段介紹將爬去的數據寫入MySQL數據庫的過程。

1，使用python抓取并提取數據

第一階段介紹數據爬取過程，首先導入所需的庫文件，主要包括requests，re和pandas三個庫。具體作用在注釋中進行了說明，這里不再贅述。
    #導入requests庫(請求和頁面抓取)
    import requests
    #導入正則庫(從頁面代碼中提取信息)
    import re
    #導入科學計算庫(拼表及各種分析匯總)
    import pandas as pd
設置爬取請求中的頭文件信息。
    #設置請求中頭文件的信息
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64
    Safari/537.11',
    'Accept':'text/html;q=0.9,*/*;q=0.8',
    'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
    'Connection':'close',
    'Referer':'https://www.baidu.com/'
    }

開始抓取數據，并查看抓取到的網頁內容。這里我們所需要的數據還在頁面源碼中，需要使用正則表達式進行提取。
    #抓取并保存頁面信息
    r=requests.get('http://www.p2peye.com/shuju/ptsj/',headers=headers)
    html=r.content
    #對抓取的頁面進行編碼
    html=str(html, encoding = "GBK")
    #查看抓取的頁面源碼
    html

使正則表達式從抓取到的網頁源碼中提取所需數據。這里我們一共提取9個字段。
    #使用正則提取title字段信息
    title=re.findall(r'"return false".*?title="(.*?)"',html)
    #使用正則提取total字段信息
    total=re.findall(r'"total">(.*?)萬<',html)
    #使用正則提取rate字段信息
    rate=re.findall(r'"rate">(.*?)<',html)
    #使用正則提取pnum字段信息
    pnum=re.findall(r'"pnum">(.*?)人<',html)
    #使用正則提取cycle字段信息
    cycle=re.findall(r'"cycle">(.*?)月<',html)
    #使用正則提取plnum字段信息
    p1num=re.findall(r'"p1num">(.*?)人<',html)
    #使用正則提取fuload字段信息
    fuload=re.findall(r'"fuload">(.*?)分鐘<',html)
    #使用正則提取alltotal字段信息
    alltotal=re.findall(r'"alltotal">(.*?)萬<',html)
    #使用正則提取captial字段信息
    capital=re.findall(r'"capital">(.*?)萬<',html)
查看其中一個字段的信息，這里我們查看平臺名稱title的提取結果。
    #查看title字段信息
    title

到這里第一階段的數據爬取工作完成了，現在我們有9個字段的數據，在下一階段中我們將連接MySQL數據庫，并將這9個字段的數據寫到數據庫里。
2，連接MySQL數據庫寫入并讀取數據
在第二階段，我們使用python的pymysql庫連接MySQL數據庫。如果你是第一次使用這個庫需要先通過pip install pymysql進行安裝，然后導入pymysql庫文件。

    #導入pymysql庫
    import pymysql
首先連接MySQL數據庫，這里需要輸入數據庫的ip地址，用戶名，密碼，數據庫名稱，端口號等信息。我在這里只簡單些了ip地址，用戶名和數據庫名稱。每個參數的內容請按你數據庫的實際信息進行填寫。
    #打開數據庫連接
    db = pymysql.connect("192.168.0.1","root","","shuju_test" )

使用 cursor()創建一個游標對象

    # 使用 cursor() 方法創建一個游標對象 cursor
    cursor = db.cursor()
在數據庫中創建一個包含9個字段的數據表，用于寫入數據。這里具體分為兩步，第一步寫出創建數據表的SQL語句。第二步使用execute()執行SQL語句

    #創建一個表
    sql1 = "CREATE TABLE wdty7( title varchar(255), total varchar(255), rate varchar(255), people_num varchar(255), cycle
    varchar(255), people_lend_num varchar(255), full_load varchar(255), all_total varchar(255), capital varchar(255)) "

    # 使用 execute() 方法執行 SQL 語句
    cursor.execute(sql1)

創建完數據表后，開始寫入數據，這里我們使用for循環向數據表中逐條寫入9個字段的數據。
    #向表中創建新的記錄
    for i in range(len(title)):
    sql="INSERT INTO `wdty6`(`title`, `total`, `rate`, `people_num`, `cycle`, `people_lend_num`, `full_load`, `all_total`,
    `capital`)VALUES ( %s, %s, %s, %s, %s, %s, %s, %s, %s);"
    values=(title[i].encode("utf-7").decode("latin1"),total[i],rate[i],pnum[i],cycle[i],p1num[i],fuload[i],alltotal
    [i],capital[i])
    cursor.execute(sql,values)
    db.commit()
創建一個查詢語句并使用execute()方法執行查詢。
    #設置查詢語句
    sql1="SELECT * FROM wdty6 where cycle>0.6;"

    # 使用 execute() 方法執行 SQL 查詢
    cursor.execute(sql1)

使用fetchall()獲取剛才寫入的所有9個字段的數據，并保存在data中。

    #使用fetchall()方法獲取所有數據
    data = cursor.fetchall()
將data中的數據轉為pandas的DataFrame格式。
    #將獲取數據
    import pandas as pd
    columns=["title", "total", "rate", "people_num", "cycle", "people_lend_num", "full_load", "all_total", "capital"]
    df = pd.DataFrame(list(data),columns=columns)
查看從數據庫中提取的數據，這里有個問題，平臺名稱title字段中的中文在寫入數據庫后變成了亂碼，應該是編碼轉換的問題。目前還沒有找到解決辦法。如有知道解決辦法的朋友請賜教。
    #查看數據表
    df.head()
使用Python連接MySQL數據庫
最后，完成所有操作后關閉數據庫的連接。
    # 關閉數據庫連接
    db.close()

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

字段 SQL mysql requests pandas python 正則表達式 DataFrame

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統競選大戲開鑼，川普當選的奇跡會再發生嗎？

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊