熱線電話:13121318867

登錄
首頁精彩閱讀SPSSModeler中數據測量類型的含義
SPSSModeler中數據測量類型的含義
2017-05-25
收藏

SPSSModeler中數據測量類型的含義

數據測量類型

查看IBM SPSS Modeler 幫助文檔,解釋如下:
? 默認值。具有未知存儲類型和值的數據(例如,由于其尚未被讀取)將顯示為<默認值>。
?  連續。用于描述數字值,如范圍 0 - 100 或 0.75 - 1.25。連續值可以是整數、實數或日期/時間。
?  分類。用于字符串值(可取的值的確切數量未知時)。這是一種非實例化數據類型,表示有關數據存儲類型和用法的所有可用信息均未知。讀取數據后,測量級別將為標志、名義或無類型,具體取決于“流屬性”對話框中指定的最大名義字段數量。
 
? 標志。標志字段用于顯示具有兩個不同值的數據。
表示存在或不存在一個特性,如 true 和 false、Yes 和 No 或 0 和 1。所用值可能有所不同,但其中總會有個值代表“真”值,另一個代表“假”值。標志的存儲類型數據可表示為文本、整數、實數、日期、時間或時間戳。
真。指定條件成立時字段的標志值。假。指定條件不成立時字段的標志值。
標簽。為標志字段中的每個值指定標簽。這些標簽將按照您在“流屬性”對話框中選擇的選項出現在多個位置,如圖形、表格、輸出和模型瀏覽器中。
  
擴展:“字段選項”—“導出”設置導出為“標志”選項
Derive Flag 節點用于指明特定條件,如高血壓或客戶帳戶停用。對于每條記錄都會創建一個標志字段,當條件為真時,會在字段中添加代表真的標志值。
真值。指定針對滿足以下指定條件的記錄要在標志字段中包括的值。缺省值為 T。
假值。對于那些不滿足以下指定條件的記錄,指定其標志字段中的值。 缺省值為 F。
以下情況時為真。指定某個 CLEM 條件,用于評估每條記錄的某些值,并為記錄賦予真值或假值(定義如上)。請注意,對于非假數字值,會將真值賦予記錄。
注意:要返回空字符串,您應該輸入一對引號,并且中間不包含任何內容,如 ""。例如,空字符串通??捎米骷僦?,以使真值在表中更為明顯。類似地,如果希望某個字符串值在其他情況下被視為數值,應使用引號 
 
 ?  名義。用于描述具有多個不同值的數據,其中的每個值都被視為集合的一個成員,如 small/medium/large。名義數據可具有任何存儲—數值、字符串或日期/時間。請注意,將測量級別設置為名義不會自動將值更改為字符串存儲。
擴展:設置派生名義選項
Derive Nominal 節點用于執行一組 CLEM 條件,以確定每條記錄滿足的條件。當每條記錄滿足某個條件時,會將一個值(指示滿足哪組條件)添加到新的導出字段。
缺省值。指定不滿足任何條件時要使用的值。
字段設置為。指定滿足某個特定條件時要在新字段中輸入的值。列表中的每個值都有一個關聯條件,該條件由用戶在相鄰列中指定。
若此條件為真。為集合字段中要列出的每個成員指定條件。使用表達式構建器在可用的函數和字段中進行選擇??梢允褂眉^和刪除按鈕對條件進行重新排序或刪除。
條件的工作原理是對數據集中特定字段的值進行檢驗。檢驗每個條件時,都會為新字段分配上述指定值,以指示滿足哪個條件(如果有)。如果不滿足任何條件,則會使用缺省值。
? 有序。用于描述具有順序固定的不同值的數據。例如,工資類別或滿意度排序可以歸類為有序數據。順序由數據元素的自然排列順序定義。例如,1, 3, 5 是某個整數集合的默認排列順序,而 HIGH, LOW, NORMAL(按字母升序)是某個字符串集合的順序。使用有序測量級別可以將一組分類數據定義為有序數據,以進行可視化處理、模型構建以及導出到將有序數據識別為不同類型的其他應用程序(如 IBM? SPSS? Statistics)。您可以在任何能夠使用名義字段的位置使用有序字段。此外,可以將任何存儲類型(實數、整數、字符串、日期、時間等等)的字段定義為有序。
?  無類型。用于不屬于任何上述類型的數據,具有單個值的字段,或集合的成員數超過定義的最大值的名義數據。當測量級別為包含許多成員(如帳號)的集合時,這種類型也將十分有用。當您為字段選擇無類型時,角色將自動設為無,記錄 ID 作為唯一的替代項。默認的集合最大容量為 250 個唯一值??稍凇傲鲗傩浴睂υ捒颍赏ㄟ^“工具”菜單訪問)的“選項”選項卡上調整或禁用該數字。
可以手動指定測量級別,也可以由軟件讀取數據并根據所讀取的值確定其測量級別。
此外,如果有多個連續數據字段需視為類別數據,可以選擇一個選項來轉換它們。請參閱 主題 轉換連續數據 詳細信息。

 ______________________________________________________________________________________

設置字段角色
字段的角色用于指定其在模型構建過程中的用法 - 例如,字段是輸入還是目標(預測的對象)。
注意:“分區”、“頻率”和“記錄標識”角色只能分別應用到單個字段。
可用的角色如下:
輸入。字段將用作機器學習的輸入(預測變量字段)。
目標。字段將用作機器學習的輸出或目標(模型將嘗試預測的字段之一)。
兩者。字段將被 Apriori 節點同時用作輸入和輸出。所有其他建模節點都將忽略該字段。
無。機器學習將忽略該字段。測量級別已設置為無類型的字段將在角色列中自動設置為無。
分區。指明字段用于將數據分區為單獨的樣本(用于訓練、測試,也可用于驗證)。該字段必須屬于實例化集合類型,具有兩個或三個可能值(在“字段值”對話框中定義)。第一個值表示訓練樣本,第二個值表示測試樣本,第三個值(如果存在)表示驗證樣本。所有其他值都將被忽略,且不能使用標志字段。請注意,要在分析中使用分區,必須在相應的模型構建或分析節點的“模型選項”選項卡中啟用分區。啟用分區時,會將對于分區字段具有空值的記錄從分析中排除。如果已在流中定義多個分區字段,那么必須在每個相應建模節點的“字段”選項卡中指定單一分區字段。如果數據中不存在適合的字段,您可以使用“分區”節點或“派生”節點進行創建。請參閱主題分區節點,了解更多信息。
分割。(僅名義、有序和標志字段)指定為字段的每個可能值構建一個模型。
頻率。 (僅數字字段)設置此角色允許將字段值用作記錄的頻率加權因子。僅 C&R 樹、CHAID、QUEST 和線性模型支持此功能;所有其他節點將忽略此角色。在支持此功能的建模節點的“字段”選項卡上,選擇使用頻率權重以啟用頻率加權。
記錄標識。此字段將用作唯一記錄標識。大多數節點都會忽略此特征;但它受線性模型支持,并且是 IBM Netezza 數據庫內挖掘節點所必需的。

離散變量

連續變量

 離散型隨機變量只可能出現可數型的實現值,比如自然數集,{0,1}等等,常見的有二項隨機變量,泊松隨機變量等。
連續型隨機變量的實現值是屬于不可數集合的,比如(0,1],實數集,常見的有正態分布,指數分布,均勻分布等。
這里涉及集合論里可數和不可數的概念,如果你沒學過,講簡單點,前者可能出現的數值你是可以掰著手指頭一個一個數的,但是后者卻是不可能的。

SPSS Modeler 18 如果已經過期,破解就沒法用了。破解程序只能在IBM SPSS Modeler 沒有結束試用其實才可以起作用。
附上,試用過期后,重新試用的方法:
在臨時許可過期之后,
1. 刪除C:\Users\All Users\SafeNet Sentinel\Sentinel RMS Development Kit\System下的所有文件;
若是win7,此目錄變更為:C:\ProgramData\SafeNet Sentinel\Sentinel RMS Development Kit\System

2. 用管理員身份運行C:\Program Files\IBM\SPSS\Modeler\18\bin\licenseinit.exe,提示輸入Base product feature code:和Version (with a decimal point):時可以直接回車。

3、重新啟動IBM SPSS Modeler 就可以重新試用了


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢