熱線電話:13121318867

登錄
首頁精彩閱讀將SPSS分析技術應用于大數據
將SPSS分析技術應用于大數據
2016-07-20
收藏

將SPSS分析技術應用于大數據

數十年來,IBM SPSS 為統計人員和數據科學家提供了強大的工具。多年來,SPSS 平臺已發生了演變,支持數據挖掘流程的所有階段,包括模型開發、模型部署和模型刷新。在過去兩年,SPSS 中增加了處理大數據的新功能。本文將介紹 SPSS 如何與 IBM 大數據產品組合的 3 個組件相集成:Netezza、InfoSphere BigInsights 和 InfoSphere Streams。

SPSS 平臺概述

與大數據集成的 SPSS 軟件組件:

SPSS Modeler

SPSS Analytic Server

SPSS Collaboration and Deployment Services

SPSS Analytic Catalyst

SPSS Modeler 是一個數據挖掘工作臺,用于分析數據和部署分析資產。通用術語分析資產 用于描述解決某個業務問題的一個操作集合。數據科學家在描述使用數據挖掘工具開發的資產時,通常會使用術語模型 或預測模型。除了模型之外,SPSS 分析資產還可包含數據準備步驟和業務規則。圖 1 顯示了 SPSS Modeler 中開發的一個示例分析資產。在此示例中,我們使用一個決策樹模型來執行貸款違約預測。分析資產執行以下操作:

合并來自 3 個歷史數據源的數據

使用一個 Type 節點識別用于模型預測的目標變量 (MortgageDefault)

構建一個基于 C5.0 決策樹算法的模型

選擇具有積極的貸款違約預測的記錄

將結果顯示在一個表中

圖 1. SPSS Modeler 中開發的分析資產

SPSS Modeler 是一個可視編程環境。分析資產可通過連接畫布上的可視編程節點來創建;在運行時,節點按照連接箭頭的方向執行。節點可按照相關功能進行組織:Sources、Record Operations、Field Operations、Modeling 等。Modeling 選項卡顯示用于生成模型的算法(參見圖 2)。SPSS 發布了 27 個建模算法和整套的節點,對一個數據集運行多種算法并選擇最佳的節點。除了所描述的可視節點之外,如果分析師希望擴展 SPSS Modeler 的基本功能,那么他們可以使用 SQL 函數、R 模型和自定義開發的節點。

圖 2. 包含生成模型的算法的 Modeling 選項卡

分析師使用歷史數據來構建模型。創建模型后,分析師會修改分析資產,以便對操作數據進行評分(參見圖 3)。我們不再需要 Mortgage Default 數據源,因為它包含歷史數據。我們刪除了 Type 和 Decision Tree 算法節點。C5 決策樹算法節點用于構建模型。創建的模型用金塊圖標表示 (MortgageDefault)。分析師將 Table 節點替換為一個 Export 節點,這會將數據寫入一個數據庫表中?,F在可以將這個分析資產用于對新貸款申請進行批量或實時評分。

圖 3. 包含 Type、Decision Tree 并刪除了 Mortgage Default 數據源的已修改模型

用于大數據的第二個 SPSS 組件是 SPSS Analytic Server。它管理對 Hadoop 數據源的訪問,并設計一個 Modeler 流在 Hadoop 中的運行。Modeler 操作以 MapReduce 作業的形式在 Hadoop 中運行,得到一個提供了高性能和高可伸縮性的解決方案。

用于大數據的下一個 SPSS 組件是 SPSS Collaboration and Deployment Services (C&DS)。C&DS 執行兩種主要功能:

用作分析資產的存儲庫。在將某項資產存儲在存儲庫中后,就可以使用它來設計批處理作業。該存儲庫還提供了與 InfoSphere Streams 的連接,以便實時更新 SPSS 模型。

提供一個接口來計劃批處理作業,建模使用數據庫和 Hadoop 數據源的刷新作業。

SPSS Analytic Catalyst 通過一種易于使用的 Web 接口來執行統計分析。它是為可能沒有深入理解數據挖掘的業務用戶設計的。SPSS Analytic Catalyst 向選定的數據源應用多種算法和統計分析技術。結果可以通過可視元素和純語言解釋來呈現。圖 4 顯示了一個 SPSS Analytic Catalyst 項目的示例輸出。

圖 4. SPSS Analytic Catalyst 返回對某個數據源的分析的結果

SPSS Analytic Catalyst 分析在 Hadoop 中運行。與 Hadoop 中現有數據的數據源連接由 SPSS Analytic Server 提供。SPSS 與 InfoSphere BigInsights 的集成 一節中描述的所有數據源都可以用在 SPSS Analytic Catalyst 中。較小的數據集可通過 Web 界面加載到 SPSS Analytic Catalyst 中。一個 Hadoop 發行版是安裝 SPSS Analytic Catalyst 的一個必要軟件。安裝之后,無需額外的集成即可對大數據執行分析。

接下來,讓我們深入講講 SPSS 與 Netezza、InfoSphere BigInsights 和 InfoSphere Streams 的集成。

SPSS 與 Netezza 的集成

Netezza 是一個高性能數據倉庫。SPSS 和 Netezza 的集成是 SPSS 的一種典型的大數據集成場景。存儲在 Netezza 中的數據可用于模型構建、評分和模型刷新。

SPSS Modeler 通過 Netezza 所提供的一個開放數據庫連接 (ODBC) 驅動程序連接到 Netezza。Netezza 中存儲的數據可用作一個 SPSS Modeler 流的輸入或輸出數據源。SPSS Modeler 支持對 Netezza 執行 SQL 推回:在運行時,Modeler 流被轉換為 SQL 并在 Netezza 中執行。SQL 推回操作不需要手動將 SPSS 代碼導入 Netezza 中。導入由 SPSS 平臺自動處理。

除了 SQL 推回操作之外,SPSS 為 Netezza 提供了一個評分適配器,它允許使用無法轉換為 SQL 的 SPSS 節點作為 Netezza 中的用戶定義的函數 (UDF)。

SPSS Modeler 還支持在 Netezza 數據庫中進行挖掘。對于 SQL 推回操作和評分適配器,SPSS Modeler 將會生成代碼并在 Netezza 中運行它。數據庫中挖掘節點由 Netezza 提供并由 SPSS 調用。所有描述的實現的最終結果都是讓性能得到了提升,因為數據無需在 Netezza 和 SPSS 服務器之間移動。

用于 Netezza 數據庫中挖掘的建模節點如圖 5 中所示。一些模型可同時用于 SPSS 和 Netezza 中,而其他模型是 Netezza 所獨有的。Netezza 中的數據庫中挖掘節點通過安裝 INZA 包來啟用,該包包含在 Netezza 中。默認情況下,在 SPSS Modeler 中會提供 Netezza 數據庫中數據挖掘的用戶界面:這些節點可通過選擇 Tools > Options > Helper Applications 顯示在模型面板中。

圖 5. 用于 Netezza 數據庫中數據挖掘的建模節點

SPSS 與 InfoSphere BigInsights 的集成

InfoSphere BigInsights 是一個企業級的 Hadoop 發行版。類似于 Netezza,與 InfoSphere BigInsights 的集成可用在數據挖掘流程的所有階段。SPSS 與 InfoSphere BigInsights 的集成由 SPSS Analytic Server 啟用。SPSS Analytic Server 隱藏了訪問 Hadoop 數據源的復雜性,支持分析師對 Hadoop 中存儲的數據應用了 SPSS Modeler 中提供的所有數據挖掘操作。在 SPSS Analytic Server 中配置后,可通過 Modeler 中的一個來源節點對 Hadoop 數據源進行輕松的訪問(參見 圖 6)。SPSS Analytic Server 支持 HDFS 和 HCatalog 數據源。HCatalog 被用作 NoSQL 數據源的一個網關,這些數據源包括 Hive、HBase、Accumulo、JSON 和 XML。

圖 6. 在 SPSS Modeler 來源節點中訪問 Hadoop 數據源

SPSS 為多個 SPSS Modeler 節點提供了 Hadoop 中 執行功能,這些是支持以 MapReduce 作業形式在 Hadoop 內執行操作的節點。以下 SPSS Modeler 節點支持 Hadoop 內的執行操作:

大多數數據準備操作

模型評分:C&RT、Quest、CHAID、Linear、Regression、Neural Net、C5.0、Logistic、Genlin、GLMM、Cox、SVM、Bayes Net、TwoStep、KNN、Decision List、Discriminant、Self Learning、Anomaly Detection、Apriori、Carma、K-Means、Kohonen 和 Text Mining

模型構建:Linear、Neural Net、C&RT、Chaid 和 Quest

SPSS Analytic Server 支持在 Hadoop 中運行 R 模型。一個流可同時包含 SPSS 和 R 模型。

SPSS Analytic Server 還提供了與數據庫數據源的連接。此特性支持您將數據庫和 Hadoop 數據合并到單個 SPSS Modeler 流中。在運行時,SPSS Analytic Server 與 SPSS Modeler 服務器聯合,確定 SPSS Modeler 流的最佳運行環境(SQL 推回操作或 Hadoop 內的執行操作)。

SPSS Analytic Server 支持 InfoSphere BigInsights 2.0 和 2.1、IBM PureData? for Hadoop 設備、InfoSphere BigInsights with Platform Symphony,以及其他多個 Hadoop 發行版。

SPSS 與 InfoSphere Streams 的集成

InfoSphere Streams 是一個處理流數據的 IBM 平臺。在實時處理需要高級分析時會使用 SPSS 集成。實時應用預測分析的用例的示例包括網絡安全、銀行和信用卡欺詐檢測、預測性維護,以及實時營銷產品。

InfoSphere Streams 和 SPSS 集成在數據挖掘生命周期的部署階段中。模型使用存儲在數據庫或 Hadoop 中的歷史數據來開發,部署在 InfoSphere Streams 中以進行實時評分。InfoSphere Streams 和 SPSS 的集成由 SPSS Scoring Toolkit 啟用,安裝在 InfoSphere Streams 中。Scoring Toolkit 是 SPSS Collaboration and Deployment Services (C&DS) 的一個組件。

在安裝該工具包后,InfoSphere Streams 開發人員可使用操作符 將 SPSS 分析資產與 InfoSphere Streams 應用程序相集成。publish 操作符在應用程序開發階段用來獲取適合 InfoSphere Streams 部署的 SPSS 模型。scoring 操作符在運行時用于調用 SPSS 模型。repository 操作符可用于自動從 SPSS 模型存儲庫拉取模型的最新版本。圖 7 顯示了 SPSS 與 InfoSphere Streams 運行時的集成的圖表。

圖 7. SPSS 與 InfoSphere Streams 的運行時集成圖

結束語

SPSS 平臺與 Netezza、InfoSphere BigInsights 和 InfoSphere Streams 的內置集成能夠讓分析師使用強大的分析工具處理大數據。SPSS 組件(提供了全面的分析功能)和大數據平臺(支持可伸縮性和性能)的組合,為大數據開發人員提供了訪問 SPSS 技術的能力??梢暂p松地對 SPSS 分析資產進行修改,以便連接到不同的大數據來源,這些分析資產可以在不同的部署模式(批處理或實時模式)下運行。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢