
用于衡量兩類現象在發展變化的方向與大小方面存在一定的關聯(不包括因果和共變關系)。
1.正線性相關
例如銷售額中涵蓋了銷售利潤和各類成本等,從數據大致可以看出,銷售利潤隨著銷售額的增長而增長,由于各類不確 定因素,數據點基本落在直線周圍,我們稱之為正線性相關。
2.負線性相關
例如通常情況下,某地區的犯罪率越高,則該地區的房價越低,但由于供需環境等其他不確定因素,數據點基本落在直 線周圍,我們稱之為負線性相關。
3.完全線性相關
雖然所有點都在直線上,但是我們不能說兩個變量是函數關系,這是因為我們看到的是樣本,并且我們假設兩個變量是 隨機變量,而我們需要推導的是兩個總體的關系。
4.非線性相關
例如雖然網站的點擊量隨著網站的廣告投入的增加而增加,但其數據點分布在對數線周圍,呈現出對數相關性。
估計標準誤差與相關系數的關系
一元線性回歸中,對于同一個問題,估計標準誤差就意味著樣本點到回歸線的距離越近,那么兩個變量的 線性相關性就越強,相關系數越大。
1.相關系數
一般情況下,如果不做特殊說明,指的就是線性相關。 如果相關系數是根據變量的樣本數據計算的,即為了推斷總體,那么則稱為樣本相關系數(雖然有的時候在部分資料里 并不嚴格說明),記為 r(有的教材里也稱為Pearson相關系數)
雖然沒有嚴格的規定,但是我們往往習慣按照下面的方式對相關性強度進行分級:
由于 r 只是樣本線性相關系數,無論其數值等于多少,我們需要推斷的始終是總體的相關性如何,這時候我們就需要運 用顯著性檢驗的知識了。我們運用R.A.Fisher提出的 t 檢驗方法來檢驗兩個變量總體之間是否存在線性相關關系。
原假設:H0 : ? = 0,兩變量間無直線相關關系 檢驗統計量:
適用條件:數據間相互獨立,包括觀測間相互獨立與變量間相互獨立;變量為連續變量(積差相關的條件);兩變量間 的關系是線性的。
(1)散點的密集程度,反應相關性的大??;
(2)散點是否具有線性關系,或線性趨勢,還是其 他形式,如果是其他形式是否可以轉換成線性 形式;
(3)線性關系之外是否存在異常值及其存在與線性 趨勢的哪個方向;
(4)數據是否存在稀疏問題。
回歸分析能解決什么問題?
探索影響因變量的可能因素;
利用回歸模型進行預測。
相關與回歸間的關系?
相關分析側重反映散點的疏密程度。
回歸分析側重反映散點的趨勢程度。
1.線性回歸的基本過程
第一步:總平方和分解
第二步:計算判定系數
第三步:殘差標準誤
由于 SSE 是一個求和表達式。樣本越多,SSE 的取值就往往會越大,因此,SSE 并不適合相對 客觀的反映估計值與樣本值的偏離程度,我們需要將 SSE 處理成相對值。于是我們令
,其中 n-2 是自由度。這個公式可以粗略的理解為,通過除以自由度,得到殘差平 方的均值;再開根號則可以將方差轉化成標準差,也成為估計標準誤差。
第四步:線性關系檢驗
線性回歸模型的假設
1.回歸分析前,哪種數據處理是不合理的( )。 A. 標準化處理
B. 取對數處理
C. 排秩處理
D. 取整處理
答案:CD 解析:標準化可以消除數據規模的影響,對數處理往往可以解決數據正態假設的問題。
2.線性回歸分析主要用于哪種情境( )。
A. 客戶價值評估
B. 貸款違約識別
C. 不同班級在英語得分上是否存在差異
D. 根據用戶特征進行市場細分
答案:A 解析:B項說的是邏輯回歸的內容,C項是方差分析的內容,D項是說聚類分析等 方法。
3.線性回歸假設正確的是( )。
A. 線性:因變量與自變量間的線性關系
B. 正態性:殘差必須服從正態分布
C. 獨立同分布:殘差間相互獨立,且遵循同一分布
D. 正交假定:誤差項與自變量不相關,其期望為0 答案:ABCD 解析:考察線性回歸的基本假設。
4.以下關于線性回歸闡述正確的是( )。
A. 如果我們建立了y關于x的線性回歸方程,那么我們就可以將y變化的原因歸結于x的變化。
B. 如果我們建立了y關于x的線性回歸方程,在沒有其他信息的情況下,我們只能說這兩個變量存在線性關系。
C. 如果變量x與y無法建立線性回歸方程,那就說明x和y沒有關系
D. 如果想研究市場規模與市場環境因素的關系,那么我們就可以以30年的市場規模數據作為因變量y(年化數據), 對應的市場環境數據作為自變量x,建立線性回歸方程(共30個樣本)。
答案:B 解析:A項是把關系當做因果了,C項有可能有別的非線性關系,D項更適合做面板模型, 線性回歸適合做截面數據。
5.回歸平方和SSR反映了y的總變差中( )。
A. 由于 x 和 y 之間的線性關系引起的 y 的變化部分
B. 除了 x 和 y 之間的線性影響之外的其他因素對 y 變差的影響
C. 由于 x 和 y 之間的非線性關系引起的 y 的變化部分
D. 由于 x 和 y 之間的函數關系引起的 y 的變化部分
答案:A 解析:熟悉SSR、SSE的相關概念。
點擊CDA題庫鏈接,獲取免費版CDA題庫入口,??荚図樌?,快速拿證!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24