熱線電話：13121318867

登錄

首頁精彩閱讀手把手教你使用scrapy框架來爬取北京新發地價格行情（理論篇）

手把手教你使用scrapy框架來爬取北京新發地價格行情（理論篇）

2021-09-29

收藏

來源：Python爬蟲與數據挖掘

作者：霖hero

大家好！我是霖hero。上個月的時候，我寫了一篇關于IP代理的文章，手把手教你使用XPath爬取免費代理IP，今天在這里分享我的第二篇文章，希望大家可以喜歡。

前言

有一天，我在逛街，突然被一聲靚仔打斷了我的腳步，回頭一看，原來是水果攤阿姨叫我買水果，說我那么靚仔，便宜一點買給我，自戀的我無法拒絕阿姨的一聲聲靚仔，于是買了很多水果回家，家人問我水果多少錢，結果如何，沒錯，水果買貴了！今天我們使用scrapy框架來爬取北京新發地價格行情，了解商品價格，家人再也不怕我買貴東西啦。

Scrapy簡介

在爬取之前，我們先來學習一下什么Scrapy框架。

Scrapy是一個基于Twisted的異步處理框架，是純Python實現的爬蟲框架，是提取結構性數據而編寫的應用框架，其架構清晰，模塊之間的耦合程度低，可擴展性極強，我們只需要少量的代碼就能夠快速抓取數據。

Scrapy框架介紹

首先我們看看經典的Scrapy框架架構圖，如下圖所示：

手把手教你使用<a href='/map/scrapy/' style='color:#000;font-size:inherit;'>scrapy</a>框架來爬取北京新發地價格行情（理論篇）

學Scrapy框架的絕大部分都看過這個圖，圖中分了很多部分，接下來，我們通過下面的表來簡單地了解各個部分的作用。

名稱	作用	是否要手寫代碼
Engine	引擎，負責數據和信號的在不同模塊間的傳遞。	否
Scheduler	調度器，存放引擎發過來的requests請求，在引擎再次請求的時候將請求提供給引擎。	否
Downloader	下載器，下載網頁響應的內容并將內容返回給引擎。	否
Spiders	爬蟲，處理引擎傳過來的網頁內容并提取數據、url，并返回給引擎。	是
Item Pipeline	管道，處理引擎傳過來的數據，主要任務是清洗、驗證和存儲數據。	是
Downloader Middlewares	下載器中間件，位于引擎和下載器之間的橋梁框架，主要是處理引擎與下載器之間的請求及響應，可以自定義下載擴展，如設置代理。	一般不用手寫
Spider MiddlewaresSpider	中間件，位于引擎和爬蟲之間的橋梁框架，主要處理向爬蟲輸入的響應和輸出的結果及新的請求。	一般不用手寫

在表中，我們可以發現，每部分都要經過引擎，上圖中Scrapy Engine部分也是放在正中心，由此可知，Engine引擎是整個框架的核心。

注意：這些模塊部分只有Spiders和Item Pipeline需要我們自己手寫代碼，其他的大部分都不需要。

Scrapy項目

大致了解了Scrapy框架的各個部分后，接下來我們開始創建一個Scrapy項目，可以使用如下命令：

scrapy startproject <Scrapy項目名>

創建一個scrapy項目名為test1的項目，如下圖所示：

手把手教你使用<a href='/map/scrapy/' style='color:#000;font-size:inherit;'>scrapy</a>框架來爬取北京新發地價格行情（理論篇）

這樣我們就創建好Scrapy項目了，如下圖所示：

手把手教你使用<a href='/map/scrapy/' style='color:#000;font-size:inherit;'>scrapy</a>框架來爬取北京新發地價格行情（理論篇）

其中：

spiders：存放spiders的文件夾；
items.py：Items的定義，定義爬取的數據結構；
middlewares.py：項目中間件文件，定義爬取時的中間件；
pipelines.py：項目管道文件，定義數據管道；
settings：項目設置文件；
scrapy.cfg：Scrapy部署配置文件。

Spider爬蟲

創建spider爬蟲

要創建Spider爬蟲，首先我們要進入剛才創建的Scrapy目錄中，再在命令行運行以下命令：

scrapy genspider <爬蟲名字> <允許爬取的域名>

以

http://quotes.toscrape.com

網站為例子，該網站是一個著名作家名言的網站，創建Spider爬蟲如下圖所示：

手把手教你使用<a href='/map/scrapy/' style='color:#000;font-size:inherit;'>scrapy</a>框架來爬取北京新發地價格行情（理論篇）

創建spider爬蟲后，spiders文件夾中多了一個firstspider.py，這個py文件就是我們創建爬蟲，文件內容如下所示：

import scrapy class FirstspiderSpider(scrapy.Spider): name = 'firstSpider' allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/'] def parse(self, response): pass

其中：

class FirstspiderSpider()是自定義spider類，繼承自scrapy.Spider
name是定義此爬蟲名稱的字符串，每個項目唯一的名字，用來區分不同的Spider，啟動爬蟲時使用scrapy crawl +該爬蟲名字；
allowed_domains是允許爬取的域名，防止爬蟲爬到其他網站；
start_urls是最開始爬取的url；
parse()方法是負責解析返回響應、提取數據或進一步生成要處理的請求，注意：不能修改這個方法的名字。

parse()提取數據并啟動爬蟲

大致了解了firstspider.py文件內容后，我們接下來嘗試在parse()方法中提取響應的數據，具體代碼如下所示：

xpath_parse = response.xpath('/html/body/div[1]/div[2]/div[1]/div') for xpath in xpath_parse:
    item={}
    item['text'] = xpath.xpath('./span[1]/text()').extract_first().replace('“','').replace('”','')       item['author']=xpath.xpath('./span[2]/small/text()').extract_first() print(item)

這樣我們就成功提取到引擎響應的內容數據了，接著輸入以下命令來運行spider爬蟲：

scrapy crawl firstSpider

運行結果如下：

手把手教你使用<a href='/map/scrapy/' style='color:#000;font-size:inherit;'>scrapy</a>框架來爬取北京新發地價格行情（理論篇）

運行后發現我們結果里面多了很多log日志，這時可以通過在settings.py添加以下代碼，就可以屏蔽這些log日志：

LOG_LEVEL="WARNING"

這樣就可以直接輸入我們想要的內容，如下圖所示：

手把手教你使用<a href='/map/scrapy/' style='color:#000;font-size:inherit;'>scrapy</a>框架來爬取北京新發地價格行情（理論篇）

有人可能問：那User-Agent在哪里設置？

我們可以在settings.py中設置User-Agent，代碼如下所示：

手把手教你使用<a href='/map/scrapy/' style='color:#000;font-size:inherit;'>scrapy</a>框架來爬取北京新發地價格行情（理論篇）

items.py介紹

為了避免拼寫錯誤或者定義字段錯誤，我們可以在items.py文件中定義好字段，在上面提取數據中，我們獲取了text、author內容，所以我們可以在items.py定義text和author字段，具體代碼如下所示：

import scrapy class Test1Item(scrapy.Item): text= scrapy.Field() author = scrapy.Field()

在items.py文件中，我們只需要使用scrapy.Field()來進行定義即可，scrapy.Field()是一個字典，總的來說我們可以把該類理解為一個字典。

接著在firstspider.py文件中導入我們的items.py，以及修改item={}，如下所示：

from test1.items import Test1Item
item=Test1Item()

有人可能會說為什么要多此一舉定義一個字典呢？

當我們在獲取到數據的時候，使用不同的item來存放不同的數據，在把數據交給pipeline的時候，可以通過isinstance(item,Test1Item)來判斷數據屬于哪個item，進行不同的數據(item)處理。

例如我們獲取到京東、淘寶、拼多多的數據時，我們可以items.py文件中定義好對應的字段，具體代碼如下：

import scrapy class jingdongItem(scrapy.Item): text= scrapy.Field() author = scrapy.Field() class taobaoItem(scrapy.Item): text= scrapy.Field() author = scrapy.Field() class pddItem(scrapy.Item): text= scrapy.Field() author = scrapy.Field()

定義好字段后，這是我們通過在pipeline.py文件中編寫代碼，對不同的item數據進行區分，具體代碼如下：

from test1.items import jingdongItem class Test1Pipeline: def process_item(self, item, spider): if isinstance(item,jingdongItem):
            print(item)

首先我們通過導入我們的items.py，通過isinstance()函數來就可以成功獲取到對應的item數據了。

pipelines.py介紹

Item Pipeline為項目管道，當Item生成后，它就會自動被送到Item Pipeline進行處理，我們常用Item Pipeline來做以下操作：

清理HTML數據；
驗證爬取數據，檢測爬取字段；
查看并丟棄重復內容；
將爬取結果保存到數據庫。

pipelines.py內容如下所示：

from itemadapter import ItemAdapter class Test1Pipeline: def process_item(self, item, spider): return item

在process_item()方法中，傳入了兩個參數，一個參數是item，每次Spider生成的Item都會作為參數傳遞過來。另一個參數是spider，就是Spider的示例。

完成pipeline代碼后，需要在setting.py中設置開啟，開啟方式很簡單，只要把setting.py內容中的以下代碼的注釋取消即可：

ITEM_PIPELINES = { 'test1.pipelines.Test1Pipeline': 300, }

其中：

test1.pipelines.Test1Pipeline是pipeline的位置；
300是pipeline的權重。

注意：

pipeline的權重越小優先級越高；
pipeline中的process_item()方法名不能修改為其他的名稱；
pipeline能夠定義多個。

當我們有多個spider爬蟲時，為了滿足不同的spider爬蟲需求，這時可以定義不同的pipeline處理不同的item內容；

當一個spider的內容可能要做不同的操作時，例如存入不同的數據庫中，這時可以定義不同的pipeline處理不同的item操作。

例如當我們有多個spider爬蟲時，可以通過pipeline.py編寫代碼定義多個pipeline，具體代碼如下：

class jingdongPipeline1: def process_item(self, item, spider): if spider.name=="jingdong":
            print(item) return item class taobaoPipeline: def process_item(self, item, spider): if spider.name=="taobao":
            print(item) return item

這樣我們就可以處理到對應的spider爬蟲傳遞過來的數據了。

定義好pipeline后，我們要在settings.py中設置pipeline權重，也就是那個pipeline先運行，具體代碼如下：

ITEM_PIPELINES = { 'test1.pipelines.jingdongPipeline': 300, 'test1.pipelines.taobaoPipeline': 301, }

數據傳輸到pipeline中

在上面我們已經提取到想要的數據，接下來將數據傳到pipeline中，傳輸很簡單，我們只需要使用yield，代碼如下：

yield item

沒錯，只要在spider爬蟲中寫入這一行代碼即可，那么為什么要使用yield呢？，我用return不能行嗎？

行，但yield是讓整個函數變成一個生成器，每次遍歷的時候挨個讀到內存中，這樣不會導致內存的占用量瞬間變高。

實現翻頁

我們成功獲取到了一頁數據了，那么問題來了，如何實現翻頁呢，方法有很多種，我們主要介紹兩種。

第一種：使用start_requests()方法

我們通過在spider爬蟲中，也就是我們創建的firstspider.py中添加以下代碼，具體代碼如下：

def start_requests(self): for i in range(1,3):
        url=f'https://quotes.toscrape.com/page/{i}/' yield scrapy.Request(url=url,callback=self.parse)

第二種：在parse()方法中實現翻頁

我們可以通過parse()方法中實現翻頁，具體代碼如下：

for i in range(2,3):
    url = f'https://quotes.toscrape.com/page/{i}/' yield scrapy.Request(url=url,callback=self.parse)

大家可以發現，上面兩種翻頁方式都差不多，只是一個在start_requests()方法實現，一個在parse()方法實現。

但都要使用scrapy.Request()方法，該方法能構建一個requests，同時指定提取數據的callback函數

scrapy.Requeset(url,callback,method='GET',headers,cookies,meta,dont_filter=False)

其中：

url：表示爬取的url鏈接；
callback：指定傳入的url交給哪個解析函數去處理；
headers：請求頭；
cookies：用于識別用戶身份、進行回話跟蹤而存儲在用戶本地終端上的數據；
meta：實現在不同的解析函數中傳遞數據；
dont_filter：讓scrapy的去重不會過濾當前url，scrapy默認有url去重的功能。

保存數據

我們已經獲取到數據而且實現了翻頁，接下來是保存數據。

保存在文件中

當我們要把數據保存成文件的時候，不需要任何額外的代碼，只要執行如下代碼即可：

scrapy crawl spider爬蟲名 -o xxx.json #保存為JSON文件 scrapy crawl spider爬蟲名 -o xxx.jl或jsonlines #每個Item輸出一行json scrapy crawl spider爬蟲名 -o xxx.csv #保存為csv文件 scrapy crawl spider爬蟲名 -o xxx.xml #保存為xml文件

想要保存為什么格式的文件，只要修改后綴就可以了，在這里我就不一一例舉了。

保存MongoDB中

當我們要把數據保存在MongoDB數據庫的時候，就要使用Item Pipeline模塊了，也就是說要在pipeline.py中編寫代碼，具體代碼如下所示：

from pymongo import  MongoClient
client=MongoClient()
collection=client["test1"]["firstspider"]


class Test1Pipeline:  def process_item(self, item, spider):  collection.insert(item)  return item

首先我們導入MongoClient模塊并實例化MongoClient，創建一個集合，然后在process_item()方法中使用insert()方法把數據插入MongoDB數據庫中。

好了，Scrapy知識就講到這里，下一篇文章小編將帶大家爬取北京新發地價格行情，順便鞏固我們今天學的知識。

總結

大家好，我是霖hero。這篇文章主要給大家分享了Scrapy框架的條條框框，Scrapy是一個基于Twisted的異步處理框架，是純Python實現的爬蟲框架，是提取結構性數據而編寫的應用框架，其架構清晰，模塊之間的耦合程度低，可擴展性極強。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

scrapy xpath 字段 requests python 數據傳輸數據結構數據挖掘

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇數據解讀：為什么有人排隊8小時，只為了喝一杯茶顏悅色？

下一篇隨心所欲地用Python處理時間（1&2）

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊