熱線電話:13121318867

登錄
首頁精彩閱讀SPSS = 數據測量的類型
SPSS = 數據測量的類型
2018-01-11
收藏

SPSS = 數據測量的類型

數據測量類型

查看IBM SPSS Modeler 幫助文檔,解釋如下:

? 默認值。具有未知存儲類型和值的數據(例如,由于其尚未被讀取)將顯示為<默認值>。

?  連續。用于描述數字值,如范圍 0 - 100 或 0.75 - 1.25。連續值可以是整數、實數或日期/時間。

?  分類。用于字符串值(可取的值的確切數量未知時)。這是一種非實例化數據類型,表示有關數據存儲類型和用法的所有可用信息均未知。讀取數據后,測量級別將為標志、名義或無類型,具體取決于“流屬性”對話框中指定的最大名義字段數量。

?  標志。標志字段用于顯示具有兩個不同值的數據。

表示存在或不存在一個特性,如 true 和 false、Yes 和 No 或 0 和 1。所用值可能有所不同,但其中總會有個值代表“真”值,另一個代表“假”值。標志的存儲類型數據可表示為文本、整數、實數、日期、時間或時間戳。

真。指定條件成立時字段的標志值。假。指定條件不成立時字段的標志值。

標簽。為標志字段中的每個值指定標簽。這些標簽將按照您在“流屬性”對話框中選擇的選項出現在多個位置,如圖形、表格、輸出和模型瀏覽器中。

擴展:“字段選項”—“導出”設置導出為“標志”選項

Derive Flag 節點用于指明特定條件,如高血壓或客戶帳戶停用。對于每條記錄都會創建一個標志字段,當條件為真時,會在字段中添加代表真的標志值。

真值。指定針對滿足以下指定條件的記錄要在標志字段中包括的值。缺省值為 T。

假值。對于那些不滿足以下指定條件的記錄,指定其標志字段中的值。 缺省值為 F。

以下情況時為真。指定某個 CLEM 條件,用于評估每條記錄的某些值,并為記錄賦予真值或假值(定義如上)。請注意,對于非假數字值,會將真值賦予記錄。

注意:要返回空字符串,您應該輸入一對引號,并且中間不包含任何內容,如 ""。例如,空字符串通??捎米骷僦?,以使真值在表中更為明顯。類似地,如果希望某個字符串值在其他情況下被視為數值,應使用引號

?  名義。用于描述具有多個不同值的數據,其中的每個值都被視為集合的一個成員,如 small/medium/large。名義數據可具有任何存儲—數值、字符串或日期/時間。請注意,將測量級別設置為名義不會自動將值更改為字符串存儲。
擴展:設置派生名義選項

Derive Nominal 節點用于執行一組 CLEM 條件,以確定每條記錄滿足的條件。當每條記錄滿足某個條件時,會將一個值(指示滿足哪組條件)添加到新的導出字段。

缺省值。指定不滿足任何條件時要使用的值。

字段設置為。指定滿足某個特定條件時要在新字段中輸入的值。列表中的每個值都有一個關聯條件,該條件由用戶在相鄰列中指定。
若此條件為真。為集合字段中要列出的每個成員指定條件。使用表達式構建器在可用的函數和字段中進行選擇??梢允褂眉^和刪除按鈕對條件進行重新排序或刪除。

條件的工作原理是對數據集中特定字段的值進行檢驗。檢驗每個條件時,都會為新字段分配上述指定值,以指示滿足哪個條件(如果有)。如果不滿足任何條件,則會使用缺省值。

? 有序。用于描述具有順序固定的不同值的數據。例如,工資類別或滿意度排序可以歸類為有序數據。順序由數據元素的自然排列順序定義。例如,1, 3, 5 是某個整數集合的默認排列順序,而 HIGH, LOW, NORMAL(按字母升序)是某個字符串集合的順序。使用有序測量級別可以將一組分類數據定義為有序數據,以進行可視化處理、模型構建以及導出到將有序數據識別為不同類型的其他應用程序(如 IBM? SPSS? Statistics)。您可以在任何能夠使用名義字段的位置使用有序字段。此外,可以將任何存儲類型(實數、整數、字符串、日期、時間等等)的字段定義為有序。

?  無類型。用于不屬于任何上述類型的數據,具有單個值的字段,或集合的成員數超過定義的最大值的名義數據。當測量級別為包含許多成員(如帳號)的集合時,這種類型也將十分有用。當您為字段選擇無類型時,角色將自動設為無,記錄 ID 作為唯一的替代項。默認的集合最大容量為 250 個唯一值??稍凇傲鲗傩浴睂υ捒颍赏ㄟ^“工具”菜單訪問)的“選項”選項卡上調整或禁用該數字。

可以手動指定測量級別,也可以由軟件讀取數據并根據所讀取的值確定其測量級別。
此外,如果有多個連續數據字段需視為類別數據,可以選擇一個選項來轉換它們。請參閱 主題 轉換連續數據 詳細信息。


字段角色設置:
字段的角色用于指定其在模型構建過程中的用法 - 例如,字段是輸入還是目標(預測的對象)。

注意:“分區”、“頻率”和“記錄標識”角色只能分別應用到單個字段。

可用的角色如下:

輸入。字段將用作機器學習的輸入(預測變量字段)。

目標。字段將用作機器學習的輸出或目標(模型將嘗試預測的字段之一)。

兩者。字段將被 Apriori 節點同時用作輸入和輸出。所有其他建模節點都將忽略該字段。

無。機器學習將忽略該字段。測量級別已設置為無類型的字段將在角色列中自動設置為無。

分區。指明字段用于將數據分區為單獨的樣本(用于訓練、測試,也可用于驗證)。該字段必須屬于實例化集合類型,具有兩個或三個可能值(在“字段值”對話框中定義)。第一個值表示訓練樣本,第二個值表示測試樣本,第三個值(如果存在)表示驗證樣本。所有其他值都將被忽略,且不能使用標志字段。請注意,要在分析中使用分區,必須在相應的模型構建或分析節點的“模型選項”選項卡中啟用分區。啟用分區時,會將對于分區字段具有空值的記錄從分析中排除。如果已在流中定義多個分區字段,那么必須在每個相應建模節點的“字段”選項卡中指定單一分區字段。如果數據中不存在適合的字段,您可以使用“分區”節點或“派生”節點進行創建。請參閱主題分區節點,了解更多信息。

分割。(僅名義、有序和標志字段)指定為字段的每個可能值構建一個模型。

頻率。(僅數字字段)設置此角色允許將字段值用作記錄的頻率加權因子。僅 C&R 樹、CHAID、QUEST 和線性模型支持此功能;所有其他節點將忽略此角色。在支持此功能的建模節點的“字段”選項卡上,選擇使用頻率權重以啟用頻率加權。

記錄標識。此字段將用作唯一記錄標識。大多數節點都會忽略此特征;但它受線性模型支持,并且是 IBM Netezza 數據庫內挖掘節點所必需的。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢