熱線電話:13121318867

登錄
首頁精彩閱讀一名合格的數據分析師該怎樣解釋“買不起房”這件事
一名合格的數據分析師該怎樣解釋“買不起房”這件事
2018-01-29
收藏

一名合格的數據分析師該怎樣解釋“買不起房”這件事

北京很大,大到容得下兩千多萬人的吃喝拉撒睡。北京很小,小到裝不下一個外地人的北漂夢。

我是一名北漂,來北京7年了,7年時間里不斷地租房搬家,心里一直想買一套自己的房子,而北京的房價讓我望而卻步,打消了念頭。又到年底,雙方父母催婚催的厲害,在一起5年,確實要考慮結婚了。結婚就要買房,這又讓我打起買房的主意,然而以我現在的積蓄,距離在北京買一套房還差多少?

鏈家網是北京知名的房屋買賣平臺,于是我爬取了鏈家的二手房買賣數據,不要問為什么看二手房...爬蟲代碼如下:

數據清洗整理

將數據進行清洗處理后,剩余2999條數據,其中price是房屋單價(元/平米),district是所在區域,floor是房屋層高,area是房屋面積,subway是周圍有無地鐵,rooms是臥室數量,halls是客廳數量。北京的房價受學區房影響較大,但數據不好獲取,這里就不做考慮了。

各區域在售房屋情況分析

發現朝陽區在售二手房屋最多,海淀、豐臺、昌平其次。

北京房屋價格分析

北京二手房屋均價為65254元,中位數為61562元。

大部分房屋價格集中在35000-80000元區間。

地鐵對房屋價格的影響

房屋附近有地鐵的價格明顯高于房屋附近沒有地鐵的價格。

分析房屋所在地域對房屋價格的影響

北京房價最便宜的區域是房山區,最貴的是西城區,價格分布如下:

通過箱線圖,發現在朝陽區、大興區、昌平區有很多異常值,也就是說有個別房屋價格明顯高于本區平均價格。

繪制北京房價地圖,顏色越深,房價越高,結果如下:


分析房屋面積對房屋價格的影響

沒有明顯的線性關系,說明房屋面積對房屋單價影響不大。

建立線性回歸模型,預測房屋價格

前文再對價格畫直方圖時,發現北京的房價不符合正態分布,為了模型更加精準,先將價格取對數,取對數后的價格分布接近正態分布。

進行建模前需要篩選變量,使用向前選擇法篩選變量時,所有變量都可以放入模型,于是嘗試第一次建立回歸模型。

臥室數量、客廳數量對價格不顯著,于是將rooms、halls變量剔除后繼續建模,R**2與aic并未受明顯影響,模型合理。

通過建立的模型對原數據進行預測,用預測值減去真實值,差值在0附近波動,沒有過多異常值,說明模型較為合理。

到此,基于鏈家網的二手房價格簡易分析完成,而我想在海淀區買一套100平米的房子,最好在中層,附近要有地鐵,方便上班出行。根據模型預測,購買類似房產的單價是82092元,總價是8209200,首付是35%,按我現在的工資水平..還要再干5年才能攢夠首付…算了,我還是想想如何應對父母催婚吧…

PS:會一些數據分析,會發現生活很有趣,如果想要學習數據分析技能,可以參加CDA數據分析就業班,三個月轉行數據分析師。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢