
大數據時代網絡爬蟲為銀行提供了全新的策略
人類社會已經進入大數據時代,傳統的信息存儲和傳播媒介已逐漸為計算機所替代,并呈現出指數增長的趨勢,成為21世紀最為重要的經濟資源之一。作為掌握大量真實交易數據的商業銀行,面對浩如煙海的信息時,如何實現銀行內部與外部信息、結構性與非結構性數據的緊密結合,更加準確地識別信息,有效地對信息進行挖掘,將數據價值轉化為經濟價值,已經成為當前商業銀行提升核心競爭力的重要途徑之一。網絡爬蟲技術的快速發展為商業銀行提升信息精準獲取和有效整合應用能力提供了全新的策略。
網絡爬蟲技術概述
網絡爬蟲是Spider(或Robots、Crawler)等詞的意譯,是一種高效的信息抓取工具,它集成了搜索引擎技術,并通過技術手段進行優化,用以從互聯網搜索、抓取并保存任何通過HTML(超文本標記語言)進行標準化的網頁信息。其作用機理是:發送請求給互聯網特定站點,在建立連接后與該站點交互,獲取HTML格式的信息,隨后轉移到下一個站點,并重復以上流程。通過這種自動化的工作機制,將目標數據保存在本地數據中,以供使用。網絡爬蟲在訪問一個超文本鏈接時,可以從HTML標簽中自動獲取指向其他網頁的地址信息,因而可以自動實現高效、標準化的信息獲取。
隨著互聯網在人類經濟社會中的應用日益廣泛,其所涵蓋的信息規模呈指數增長,信息的形式和分布具有多樣化、全球化特征,傳統搜索引擎技術已經無法滿足日益精細化、專業化的信息獲取和加工需求,正面臨著巨大的挑戰。網絡爬蟲自誕生以來,就發展迅猛,并成為信息技術領域的主要研究熱點。當前,主流的網絡爬蟲搜索策略有如下幾種。
深度優先搜索策略
早期的爬蟲開發采用較多的搜索策略是以深度優先的,即在一個HTML文件中,挑選其中一個超鏈接標簽進行深度搜索,直至遍歷這條超鏈接到最底層時,由邏輯運算判斷本層搜索結束,隨后退出本層循環,返回上層循環并開始搜索其他的超鏈接標簽,直至初始文件內的超鏈接被遍歷。深度優先搜索策略的優點是可以將一個Web站點的所有信息全部搜索,對嵌套較深的文檔集尤其適用;而缺點是在數據結構日益復雜的情況下,站點的縱向層級會無限增加且不同層級之間會出現交叉引用,會發生無限循環的情況,只有強行關閉程序才能退出遍歷,而得到的信息由于大量的重復和冗余,質量很難保證。
寬度優先搜索策略
與深度優先搜索策略相對應的是寬度優先搜索策略,其作用機理是從頂層向底層開始循環,先就一級頁面中的所有超鏈接進行搜索,完成一級頁面遍歷后再開始二級頁面的搜索循環,直到底層為止。當某一層中的所有超鏈接都被選擇過,才會基于該層信息檢索過程中所獲得的下一級超鏈接(并將其作為種子)開始新的一輪檢索,優先處理淺層的鏈接。這種模式的一個優點是:無論搜索對象的縱向結構層級有多么復雜,都會極大程度上避免死循環;另一個優勢則在于,它擁有特定的算法,可以找到兩個HTML文件間最短的路徑。一般來講,我們期望爬蟲所具有的大多數功能目前均可以采用寬度優先搜索策略較容易的實現,所以它被認為是最優的。但其缺點是:由于大量時間被耗費,寬度優先搜索策略則不太適用于要遍歷特定站點和HTML文件深層嵌套的情況。
聚焦搜索策略
與深度優先和寬度優先不同,聚焦搜索策略是根據“匹配優先原則”對數據源進行訪問,基于特定的匹配算法,主動選擇與需求主題相關的數據文檔,并限定優先級,據以指導后續的數據抓取。這類聚焦爬蟲針對所訪問任何頁面中的超鏈接都會判定一個優先級評分,根據評分情況將該鏈接插入循環隊列,此策略能夠幫助爬蟲優先跟蹤潛在匹配程度更高的頁面,直至獲取足夠數量和質量的目標信息。不難看出,聚焦爬蟲搜索策略主要在于優先級評分模型的設計,亦即如何區分鏈接的價值,不同的評分模型針對同一鏈接會給出不同的評分,也就直接影響到信息搜集的效率和質量。同樣機制下,針對超鏈接標簽的評分模型自然可以擴展到針對HTML頁面的評價中,因為每一個網頁都是由大量超鏈接標簽所構成的,一般看來,鏈接價值越高,其所在頁面的價值也越高,這就為搜索引擎的搜索專業化和應用廣泛化提供了理論和技術支撐。當前,常見的聚焦搜索策略包括基于“鞏固學習”和“語境圖”兩種。
從應用程度來看,當前國內主流搜索平臺主要采用的是寬度優先搜索策略,主要是考慮到國內網絡系統中信息的縱向價值密度較低,而橫向價值密度較高。但是這樣會明顯地遺漏到一些引用率較小的網絡文檔,并且寬度優先搜索策略的橫向價值富集效應,會導致這些鏈接量少的信息源被無限制的忽略下去;而在此基礎上補充采用線性搜索策略則會緩解這種狀況,不斷引入更新的數據信息到已有的數據倉庫中,通過多輪的價值判斷去決定是否繼續保存該信息,而不是“簡單粗暴”地遺漏下去,將新的信息阻滯在密閉循環之外。
網絡爬蟲技術發展趨勢
近年來,隨著網絡爬蟲技術的持續發展,搜索策略也在不斷進行優化。從目前來看,未來網絡爬蟲的發展主要呈現以下趨勢。
網頁數據動態化
傳統的網絡爬蟲技術主要局限于對靜態頁面信息的抓取,模式相對單一,而近年來,隨著Web2.0/AJAX等技術成為主流,動態頁面由于具有強大的交互能力,成為網絡信息傳播的主流,并已取代了靜態頁面成為了主流。AJAX采用了JavaScript驅動的異步(非同步)請求和響應機制,在不經過網頁整體刷新的情況下持續進行數據更新,而傳統爬蟲技術缺乏對JavaScript語義的接口和交互能力,難以觸發動態無刷新頁面的異步調用機制并解析返回的數據內容,無法保存所需信息。
此外,諸如JQuery等封裝了JavaScript的各類前端框架會對DOM結構進行大量調整,甚至網頁上的主要動態內容均不必在首次建立請求時就以靜態標簽的形式從服務器端發送到客戶端,而是不斷對用戶的操作進行回應并通過異步調用的機制動態繪制出來。這種模式一方面極大地優化了用戶體驗,另一方面很大程度上減輕了服務器的交互負擔,但卻對習慣了DOM結構(相對不變的靜態頁面)的爬蟲程序提出了巨大挑戰。傳統爬蟲程序主要基于“協議驅動”,而在互聯網2.0時代,基于AJAX的動態交互技術環境下,爬蟲引擎必須依賴“事件驅動”才有可能獲得數據服務器源源不斷的數據反饋。而要實現事件驅動,爬蟲程序必須解決三項技術問題:第一,JavaScript的交互分析和解釋;第二,DOM事件的處理和解釋分發;第三,動態DOM內容語義的抽取。
數據采集分布化
分布式爬蟲系統是在計算機集群之上運轉的爬蟲系統,集群每一個節點上運行的爬蟲程序與集中式爬蟲系統的工作原理相同,所不同的是分布式需要協調不同計算機之間的任務分工、資源分配、信息整合。分布式爬蟲系統的某一臺計算機終端中植入了一個主節點,并通過它來調用本地的集中式爬蟲進行工作,在此基礎上,不同節點之間的信息交互就顯得十分重要,所以決定分布式爬蟲系統成功與否的關鍵在于能否設計和實現任務的協同,此外,底層的硬件通信網絡也十分重要。由于可以采用多節點抓取網頁,并能夠實現動態的資源分配,因此就搜索效率而言,分布式爬蟲系統遠高于集中式爬蟲系統。
經過不斷的演化,各類分布式爬蟲系統在系統構成上各具特色,工作機制與存儲結構不斷推陳出新,但主流的分布式爬蟲系統普遍運用了“主從結合”的內部構成,也就是由一個主節點通過任務分工、資源分配、信息整合來掌控其他從節點進行信息抓??;在工作方式上,基于云平臺的廉價和高效特點,分布式爬蟲系統廣泛采用云計算方式來降低成本,大規模降低軟硬件平臺構建所需要的成本投入;在存儲方式方面,當前比較流行的是分布式信息存儲,即將文件存儲在分布式的網絡系統上,這樣管理多個節點上的數據更加方便。通常情況下使用的分布式文件系統為基于Hadoop的HDFS系統。
網絡爬蟲技術在商業銀行的應用
對商業銀行而言,網絡爬蟲技術的應用將助力商業銀行實現四個“最了解”,即“最了解自身的銀行”、“最了解客戶的銀行”、“最了解競爭對手的銀行”和“最了解經營環境的銀行”,具體應用場景如下。
網絡輿情監測
網絡輿情是當前社會主流輿論的表現方式之一,它主要搜集和展示經互聯網傳播后大眾對部分社會焦點和熱點問題的觀點和言論。對于商業銀行而言,對網絡輿情進行監測,是對自身品牌管理和危機公關的重要技術手段,從而以網絡作為一面“鏡子”,構建“最了解自身的銀行”。
網絡輿情作為當前社會的主流信息媒介之一,具有傳播快、影響大的特點,對于商業銀行而言,創建自動化的網絡輿情監控系統十分必要,一方面可以使商業銀行獲得更加精準的社會需求信息,另一方面可以使商業銀行在新的輿論平臺上傳播自身的服務理念和服務特色,提升自身的業務拓展水平。由于網絡爬蟲在網絡輿情監控中有著不可替代的作用,其工作質量將會很大程度上影響網絡輿情采集的廣度和深度。依據采集目標的類型,網絡爬蟲可以歸納為“通用型網絡爬蟲”和“主題型網絡爬蟲”兩種。通用型網絡爬蟲側重于采集更大的數據規模和更寬的數據范圍,并不考慮網頁采集的順序和目標網頁的主題匹配情況。在當前網絡信息規模呈現指數增長的背景下,通用型網絡爬蟲的使用受到信息采集速度、信息價值密度、信息專業程度的限制。為緩解這種狀況,主題型網絡爬蟲誕生了。不同于通用型網絡爬蟲,主題型網絡爬蟲更專注采集目標與網頁信息的匹配程度,避免無關的冗余信息,這一篩選過程是動態的,貫穿于主題型網絡爬蟲技術的整個工作流程。
通過運用爬蟲技術對網絡輿情進行監測,可以更加全面深入地了解客戶對銀行的態度與評價,洞察銀行自身經營的優勢與不足,同時可以起到防御聲譽風險、增強品牌效應的作用。
客戶全景畫像
隨著商業銀行競爭日趨激烈,利潤空間進一步壓縮,對客戶營銷和風險控制的要求也日趨提升。在當前的銀行經營體系中,營銷流程管理和風險流程管理,尤其是對潛在客戶和貸后風險的識別與管理,往往需要耗費大量的人力、物力和時間成本。通過引入網絡爬蟲技術,可以有效構建面向客戶的全景畫像,打造“最了解客戶的銀行”,這是對傳統“客戶關系管理”以及“非現場風控”技術的有益補充,將會極大促進銀行客戶營銷和對風險的管理。
網絡爬蟲程序可以用來構建銀行客戶的全維度信息視圖,即以簡單的個人客戶身份信息或對公客戶網絡地址為輸入,經過爬蟲程序的加工,將符合預設規則的客戶信息按特定的格式進行輸出。以特定的基礎數據作為原料,銀行數據人員將關鍵詞輸入爬蟲系統,并結合與客戶信息相關的網絡地址信息,封裝成爬蟲種子傳遞給爬蟲程序,隨后,爬蟲程序啟動相應的業務流程,爬取客戶相關信息的網頁并保存下來。此外,從網絡輿情監測層面進一步入手,將監測對象從自身延伸至銀行客戶,則能夠通過網絡在第一時間了解銀行客戶的客戶對銀行客戶的評價,及時掌握客戶的輿情動態,指導銀行經營決策。
通過采用上述網絡爬蟲系統對客戶相關信息進行實時采集、監測、更新,不僅可以更全面地了解客戶實時情況,而且可以對客戶的潛在營銷商機和信用風險進行預判,有效提升客戶營銷和貸后風險管理效率,提升商業銀行綜合效益,形成銀行與客戶共贏的局面。
當前,隨著利率市場化的到來和互聯網金融的沖擊,商業銀行間競爭日趨激烈,新的市場參與主體與新的產品層出不窮,業務競爭加劇。在此背景下,充分了解競爭對手動態,打造“最了解競爭對手的銀行”,并以此對自身進行調整,及時搶占先機,這對各家商業銀行而言都具有愈發重要的意義。
通過構建基于網絡爬蟲技術的全網絡信息分析和展示平臺,可以有效對全網絡實時數據進行抓取,及時獲取其他銀行的產品信息與新聞動態,第一時間獲取其他競爭者的狀況,方便整合并用以分析本地行內數據。網絡爬蟲通過實時采集數據構建起動態數據平臺,抓取網絡數據并進行本地存儲,便于未來進行深入的數據挖掘分析應用。網絡爬蟲技術不僅使得商業銀行決策層更方便地制定準確的政策,用以支撐公司的運營,而且可以將網絡輿情信息的監測對象從自身、客戶延伸至競爭對手,便于實時掌握競爭對手的市場競爭狀況及其優劣勢,實現“知己知彼”,真正達到信息對稱。
行業垂直搜索
垂直搜索是指將搜索范圍細分至某一專業領域,針對初次獲取到的網頁信息進行更深層次的整合,最終形成“純度”更高的專業領域信息。銀行數據人員采用該種方式,可以極大提高有效信息的獲取效率。通過對金融主題進行抓取分析,商業銀行可以更加全面地了解監管政策發展動態,了解區域經濟、行業經濟的發展形勢,以及掌握金融行業自身經營環境動態,及時校驗并調整自身策略,緊跟市場趨勢,打造成為“最了解經營環境的銀行”。
對金融領域垂直搜索的應用,可以提高金融主體的信息處理能力。垂直搜索技術上的最大亮點就是能夠對形式多樣、規模巨大的數據進行有目標地專業化的細分操作,減少垃圾信息、聚集有效信息,提高搜索效率,在某些條件下甚至可以提供實時的數據,最大限度地整合現有大量復雜的網頁數據,使用戶獲得更便捷、更完整、更高效的信息檢索服務。
結語
隨著互聯網技術的發展和數據爆炸,網絡爬蟲技術為商業銀行數據采集和信息整合應用提供了全新的技術路徑。站在商業銀行應用實踐的角度,網絡爬蟲在銀行日常經營管理中的發展潛力巨大。網絡爬蟲技術的應用可以助力銀行轉型成為最了解自身、最了解客戶、最了解競爭對手、最了解經營環境的“智慧銀行”??梢灶A見,網絡爬蟲技術將成為商業銀行提升精細化管理能力、提高決策智能化水平的重要技術手段。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25