
多重應答數據深度分析方法及其SPSS操作_數據分析師考試
多重應答(Multiple Response),又稱多選題,是市場調查研究中十分常見的數據形式。多重應答數據本質上屬于分類數據,但由于各選項均是對同一個問題的回答,之間存在一定的相關,將各選項單獨進行分析并不恰當。對多重應答數據最常見的分析是使用SPSS中的“Multiple Response”命令,通過定義變量集的方式,對選項進行簡單的頻數分析和交叉分析。筆者認為,該分析方法對調查數據的開發利用往往是不夠的,我們還可以使用其他分析方法對數據信息進行深度挖掘。
一、兩種數據錄入方式
比如說在某次民意調查中,我們希望了解公眾評價宜居城市時,到底是城市的哪一些特征決定人們對該城市宜居性的評估。為此,我們在研究中設計了14項標準請被訪者從中選出他們在進行宜居評價時最看重的5項標準(關于宜居標準的具體探討,參見本刊2006年第8期)。
選項包括:
![]() |
這是一道典型的多重應答題。統計軟件中對多重應答的標準紀錄方式有兩種:(1)多重二分法(Multiple dichotomy method)。對于多項選擇題的每一個選項看作一個變量來定義。0代表沒有被選中,1代表被選中。這樣,多項選擇題中有幾個選項,就會變成有幾個單選變量。這些單選變量的選項都只有兩個,即0或1。比如在上述例子中,我們就可以設置14個單選變量,來標示某選項是否被選中;(2)多重分類法(Multiple category method)。多項選擇題中有幾個選項,就定義幾個單選變量。每個變量的選項都一樣,都和多項選擇題的選項相同。每個變量代表被調查者的一次選擇,即紀錄的是被選中的選項的代碼。如上述例子中,我們可以設置X1~X5共5個變量,每個變量的選項兼為從1到14的14項宜居標準。很多情況下,當問卷中不限定被訪者可選擇的選項數量時,被調查者可能不會全部選項都選,因此在數據錄入時,一般從這些變量的最前面幾個變量開始錄入,這樣最后面幾個變量自然就是缺失值。當被調查者對多項選擇題中的選項全部選擇時,這些變量中都有一個選項代碼,此時沒有缺失值。
事實上,假如被訪者所選擇的各項選之間不涉及順序問題(如上述例子中,不需要受訪者給出哪種因素最重要,哪種次重要),那么這兩種輸入方法所表達的數據信息是一樣的。但在實際操作中,如果選擇項較多,而被調查者最多只選擇其中少數幾項時,采用多重二分法錄入就顯得繁瑣,輸入數據時容易出錯。尤其是當樣本量增大時,采用多重二分法錄入就大大增加了錄入的工作量,不利于提高工作效率。為此,一般的市場調查公司大都采用多重分類法的錄入方式。
二、兩種數據錄入格式的轉換
實際上,只有多重二分法的錄入方式才是符合統計分析原則的數據排列格式,能夠直接進行后續的統計推斷。多重分類法只是一種簡化紀錄方式,需要轉化為前者后方可進行統計推斷。
采用多重分類法錄入的數據如果要轉化成虛擬變量(選項為0或1)的形式,以上述公眾宜居標準的選擇為例,可以采用如下操作命令:
COUNT
New_x1=X1 X2 X3 X4 X5 (1).
EXECUTE.
其中New_x1代表受訪者是否選擇“社會安全”該選項。顯然,如果在X1~X5中受訪者選擇了“1”(社會安全)選項,那么New_x1的取值為1,如果在X1~X5中受訪者沒有選擇“1”,那么New_x1的取值為0。以同樣的思路,我們就可以設置變量New_x2~New_x14了。這樣,通過上述數據轉換,我們就把X1~X5共5個變量轉化成了New_x1~New_x14共14個虛擬變量了。
三、多重應答數據交叉分析
(一)多重應答卡方檢驗
在SPSS操作中,多重應答變量通過定義變量集之后就可以直接與其他變量進行交叉分析了。這種操作方法使用方便,但是其缺陷是在SPSS操作界面上無法直接實現卡方檢驗。為此,本文介紹一種進行卡方檢驗的間接方法。
解決方法與操作:
第一步:根據需要做出一個有多重應答問題的交叉表,如表1
表 1 多重應答交叉表
![]() |
第二步:構成一個與第一步中結構相同的頻數全部為“1”的交叉表??梢酝ㄟ^如下操作實現。
在SPSS中,新增加兩個變量。
變量I的構成方式:從1到6,重復3次;
變量II的構成方式:1重復6次,2重復6次,3重復6次。
第三步:按照第一步產生的交叉表內的頻數,構造變量III。以變量III為權重,對應交叉表中每個組成元素的位置進行加權。
最后的結果如下圖:
圖 1 生成三個變量
![]() |
第四步:最后就可以利用加權后的數據,直接選擇SPSS中的“Descriptive Statistics”中的“Crosstabs”命令直接進行交叉分析和卡方檢驗了。
(二)多重應答數據多元交叉比較法
使用上述檢驗方法操作相對比較復雜,且不能比較具體的每一個選項與其他變量的檢驗情況。為此,我們也可以將轉化后的每一個“虛擬變量”與其他變量(如性別)直接進行卡方檢驗。
比如在上述“宜居標準”這個例子中,我們把代表不同宜居標準的New_x1~New_x14共14個虛擬變量與“性別”、“戶口”、“收入”和“年齡”進行交叉列聯分析和卡方顯著性檢驗,為了使檢驗結果具有可比較性,我們把這4個背景變量都設置為只有兩項取值(如收入分為低收入和高收入,年齡分為18~35歲和35歲以上,戶口情況分為本地戶口和外地戶口),這樣做出的交叉分析就具有共同的自由度(df=1),可以對各自的卡方值的大小進行比較。檢驗結果顯示,城市不同性別、不同收入、不同戶口的市民存在顯著差異的宜居因素兼為2個;但是城市不同年齡段人群認為的宜居因素卻有5個存在顯著性差異。由此可見,不同年齡段的人群在對宜居的標準判斷上存在更大的多元化傾向。在建設宜居城市時,為了盡量滿足各類群體的需求,可以從先滿足不同年齡段市民的宜居需求著手。
表 2 不同類別群體的宜居因素差異比較
![]() |
注:▲表示該宜居因素在對應的類別群體中存在顯著性差異P<0.05
因子分析是利用降維的思想,由研究原始變量相關矩陣內部的依賴關系出發,把一些具有錯綜復雜關系的變量歸結為少數幾個綜合因子的一種多變量統計分析方法。因子分析的思想始于1904年查爾斯?斯皮爾曼(Charles Spearman)對學生成績的研究,近年來,隨著電子計算機的發展,人們將因子分析的理論成功地應用于市場研究領域。
例如,某年我們對982名跨國企業經理人和普通員工進行了一項調查,其中有一題我們讓受訪者選出他們認為的中資跨國企業與外資跨國企業相比,在發展中最急需解決的三項問題是什么,并按重要性排序。
1.資金2.人才3.新制度4.信息5.相關政策6.知識與技術
請排序:第一重要問題_____;第二重要問題_____;第三重要問題_____。
面對上述問題,簡單的頻數分析顯然不能綜合地反映問題。而因子分析法不僅可以進行綜合分析,發現公因子,而且還可以得到更多的信息。
對上述的選項按三級李克特量表進行處理:凡是選為第一重要因素的賦予10分,選為第二重要因素的賦予7分,選為第三重要因素的賦予4分,沒有被選中的因素都設為0分,新設置6個變量(問題的選項有6項),將每個人的回答情況由原來3個變量轉換為資金、人才、新制度、信息、相關政策、知識與技術6個變量。具體轉換方法如表3。
表 3 變量的轉換
![]() |
然后對新生成的6個變量進行因子分析,分析結果顯示,前4個因子的方差貢獻率達到了87.6%。具體結果顯示如下:
表 4 旋轉后各選項在所提取公因子中的負荷系數
![]() |
從表中可以看出第一個公因子是資金與新制度;第二個公因子是人才和知識與技術;第三個公因子是相關政策;第四個公因子是信息。這說明中國的跨國企業在發展中最急需解決的問題是資金與新制度,其次是人才和知識與技術,再次是相關政策、信息。該分析結果與頻數分析基本一致。并且從因子分析中我們還可得到更多的相關信息。如第一公因子為資金與新制度,但是兩個變量的因子載荷符合是相反的,這說明越是關心“資金”的人,越不重視制度創新;其次,信息這一選項被排在最后,從一個側面說明中資跨國企業與外資跨國企業相比還處于粗放發展階段,更需要資金、人才和技術支持,信息的功能尚未有效發揮。 |
五、多重應答數據Logistic回歸分析
為了了解不同人群的應答特征,可以將多重應答情況作為因變量,相應的人群特征變量作為影響因素。由于所有選項均為選中或不選中兩種取值,因此所有的因變量均為二分類,即建立多元Logistic模型。
Logistic回歸方程的基本形式為:
![]() |
其中,p為事件發生率,xi為影響因素,bi為影響系數,a為常數項。
下面我們以一個具體的例子來說明。
問題【針對企業家提問】:下面我將讀出一些對企業家的形象描述,請告訴我其中哪些是您個人期望塑造的企業家形象?【可多選】
選項:
![]() |
因篇幅所限,這里僅對“關心公益事業的”這一選項的影響因素加以分解。
在該Logistic模型中,因變量為在多項選擇中是否選擇了“關心公益事業”這一選項,選了的賦值為1,沒有選的賦值為0。
自變量中的離散變量經過虛擬變量處理。性別以女性為參照類,戶口類型以農村戶口為參照類,婚姻狀況以未婚為參照類,文化程度以本科及以上為參照類。另外,從分布來看,個人年收入嚴重偏態分布,故取自然對數,使之整體服從正態分布。
自變量中,我們還設計了“后物質主義傾向”這一變量。物質主義和后物質主義是關于價值觀的一對概念,傳統的強調經濟增長和物質安全的價值觀為物質主義,而新流行的強調自由、精神生活和生活質量的價值觀為后物質主義。我們以“您是否關注當前的環境保護問題”來測量企業家的后物質主義傾向。因為環保問題是目前的熱門話題,與企業家的利他主義、社會責任等后現代意識密切相關。該變量以“不太關注”為參照組。
表 5 Logistic 回歸結果:是否選擇“關心公益事業的”
![]() |
Logistic回歸統計結果表明,假設模型整體檢驗十分顯著(卡方值為239.016,p=0.0001)。除婚姻狀況、后物質主義中的“比較關注”以及部分受教育程度對因變量的影響不顯著外,其他因素均顯著??偟膩碚f,女性企業家比男性企業家更喜歡呈現出“關注公益事業”的形象;城市企業家比農村企業家更傾向于呈現出“關注公益事業”的形象;收入越高、學歷越高、后物質主義傾向越強的企業家更希望呈現“關注公益事業”的形象。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23