熱線電話：13121318867

登錄

首頁精彩閱讀知乎熱門：如何提高爬蟲速度？

知乎熱門：如何提高爬蟲速度？

2021-10-26

收藏

知乎熱門：如何提高爬蟲速度？

作者：閑歡

來源：Python 技術

今天在瀏覽知乎時，發現一個有趣的問題：

如何優化 Python 爬蟲的速度？

他的問題描述是：

目前在寫一個 Python 爬蟲，單線程 urllib 感覺過于慢了，達不到數據量的要求（十萬級頁面）。求問有哪些可以提高爬取效率的方法？

這個問題還蠻多人關注的，但是回答的人卻不多。

我今天就來嘗試著回答一下這個問題。

程序提速這個問題其實解決方案就擺在那里，要么通過并發來提高單位時間內處理的工作量，要么從程序本身去找提效點，比如爬取的數據用gzip傳輸、提高處理數據的速度等。

我會分別從幾種常見的并發方法去做同一件事情，從而比較處理效率。

簡單版本爬蟲

我們先來一個簡單的爬蟲，看看單線程處理會花費多少時間？

import time import requests from datetime import datetime def fetch(url): r = requests.get(url)
    print(r.text)

start = datetime.now()

t1 = time.time() for i in range(100):
    fetch('http://httpbin.org/get')

print('requests版爬蟲耗時：', time.time() - t1) # requests版爬蟲耗時：54.86306357383728

我們用一個爬蟲的測試網站，測試爬取100次，用時是54.86秒。

多線程版本爬蟲

下面我們將上面的程序改為多線程版本：

import threading import time import requests


def fetch():
    r = requests.get('http://httpbin.org/get') print(r.text)

t1 = time.time()

t_list = [] for i in range(100):
    t = threading.Thread(target=fetch, args=())
    t_list.append(t)
    t.start() for t in t_list:
    t.join() print("多線程版爬蟲耗時：", time.time() - t1)

# 多線程版爬蟲耗時：0.8038511276245117

我們可以看到，用上多線程之后，速度提高了68倍。其實用這種方式的話，由于我們并發操作，所以跑100次跟跑一次的時間基本是一致的。這只是一個簡單的例子，實際情況中我們不可能無限制地增加線程數。

多進程版本爬蟲

除了多線程之外，我們還可以使用多進程來提高爬蟲速度：

import requests import time import multiprocessing from multiprocessing import Pool

MAX_WORKER_NUM = multiprocessing.cpu_count() def fetch(): r = requests.get('http://httpbin.org/get')
    print(r.text) if __name__ == '__main__':
    t1 = time.time()
    p = Pool(MAX_WORKER_NUM) for i in range(100):
        p.apply_async(fetch, args=())
    p.close()
    p.join()

    print('多進程爬蟲耗時：', time.time() - t1)

多進程爬蟲耗時： 7.9846765995025635

我們可以看到多進程處理的時間是多線程的10倍，比單線程版本快7倍。

協程版本爬蟲

我們將程序改為使用 aiohttp 來實現，看看效率如何：

import aiohttp import asyncio import time async def fetch(client): async with client.get('http://httpbin.org/get') as resp: assert resp.status == 200 return await resp.text() async def main(): async with aiohttp.ClientSession() as client:
        html = await fetch(client)
        print(html)

loop = asyncio.get_event_loop()

tasks = [] for i in range(100):
    task = loop.create_task(main())
    tasks.append(task)

t1 = time.time()

loop.run_until_complete(main())

print("aiohttp版爬蟲耗時：", time.time() - t1)

aiohttp版爬蟲耗時： 0.6133313179016113

我們可以看到使用這種方式實現，比單線程版本快90倍，比多線程還快。

結論

通過上面的程序對比，我們可以看到，對于多任務爬蟲來說，多線程、多進程、協程這幾種方式處理效率的排序為：aiohttp > 多線程 > 多進程。因此，對于簡單的爬蟲任務，如果想要提高效率，可以考慮使用協程。但是同時也要注意，這里只是簡單的示例，實際運用中，我們一般會用線程池、進程池、協程池去操作。

這就是問題的答案了嗎？

對于一個嚴謹的程序員來說，當然不是，實際上還有一些優化的庫，例如grequests，可以從請求上解決并發問題。實際的處理過程中，肯定還有其他的優化點，這里只是從最常見的幾種并發方式去比較而已，應付簡單爬蟲還是可以的，其他的方式歡迎大家在評論區留言探討。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

requests python

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇提取任意網頁核心內容——像搜索引擎一樣精準

下一篇一行代碼搞定的事還用個錘子的 PS 啊

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊