一篇文章帶你讀懂智能家居與大數據
為何叫“大數據”?
數據體量大(VOLUMES)
代指大型數據集,一般在10TB規模左右。但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量。未來智能家居領域也有許多這種企業,目前國內智能家居領域的數據量級總和已經達到100TB以上,非結構化數據規模正在以更快的速度增長。
數據類別大(variety)
數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。也就是說,大數據最重要的變化是處理對象由結構化數據拓展到了半結構化和非結構化數據,每年非結構化數據存儲總量較結構化數據增長率高出10到50倍。
非結構化數據可以看成所有無法簡單轉化到結構化關系型數據庫中的所有數據,非結構化數據如企業的郵件和其它形式的電子通訊記錄;網站上的資料,包括點擊量和社交媒體相關的內容;還有設備產生的數據,如RFID、GPS\傳感器產生的數據、日志文件等。
數據處理速度快(Velocity)
在數據量非常龐大的情況下,也能夠做到數據的實時處理。
數據真實性高(Veracity)
隨著社交數據、企業內容、交易與應用數據等新數據源的興起,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
小貼士
TB是一個計算機存儲容量的單位,它等于2的40次方,或者接近一萬億個字節,即一千千兆字節。
PB是數據存儲容量的單位,它等于2的50次方個字節,或者在數值上大約等于1000個TB。
數據單位從小到大為:B.KB.MB.GB.TB.PB。1PB=1024TB,依次類推。
TB、PB依然很難理解,我們舉些例子。
美國國會圖書館在2011年4月之前總共收集了235TB的數據。
假設手機播放MP3的編碼速度為平均每分鐘1MB,而1首歌曲的平均時長為4分鐘,那么1PB歌曲可以連續播放2000年。
如果智能手機相機拍攝相片的平均大小為3MB,打印照片的平均大小為8.5英寸,那么總共1PB的照片的并排排列長度就達到48000英里,大約可以環繞地球2周。
人類功能記憶的容量預計在1.25個TB。這意味著,800個人類記憶才相當于1個PB。1PB足夠存儲整個美國人口的DNA,而且還能再克隆2倍。
如果以每秒1個位的速度數一下1PB所包含的位數,那么一個人需要2.85億年才能數完,如果每秒數1個字節,那么一個人需要數357萬年。
谷歌為用戶提供了超過20PB(215億MB)的地圖影像——包括衛星圖片、航拍照片和360度街景圖片。
即使在2008年,谷歌每天處理的數據已經達到20PB,一年就是7300PB。
社交媒體網站早就開始生成PB級數據,Facebook在2012年前已經存儲了100PB數據。
宇宙每天將生成1376 PB數據,相當于每天傳輸的全球互聯網流量的兩倍。
大數據的挑戰:
總結:
數據本身是資產,所有大數據的屬性,包括數量、速度、多樣性等反映了數據庫不斷增長的復雜性。
大數據存儲和分析
大數據分為大數據存儲和大數據分析,屬于兩種截然不同的計算機技術領域,大數據存儲用于大數據分析。大數據存儲重點在于研發可以擴展至PB甚至EB級別的數據存儲平臺;大數據分析關注在最短時間內處理大量不同類型的數據集。目前無論是大數據存儲還是大數據分析,都已經成為幫助企業主業務的關鍵應用。在智能家居領域,例如家庭數字網絡攝像頭的云端存儲,音視頻設備背后的云端流媒體,家庭電量實施云端監測等等,都在大規模使用云存儲和分析技術。
智能家居云存儲方式
高度智能化的智能家居涉及數據量非常龐大,傳統存儲技術無法滿足,所有云存儲技術的逐漸發展與應用也為智能家居的發展迎來了廣泛的關注。
下面舉例其中一種云存儲方式:
新一代的面向智能家居大數據云存儲系統主要由邏輯控制模塊、用戶訪問模塊、存儲模塊、文件讀/寫模塊和面向智能家居的大數據云存儲模塊。
邏輯控制模塊:是整個面向智能家居大數據云存儲系統的核心,是邏輯處理的樞紐,各業務請求均在該模塊中被處理。
用戶訪問模塊是智能家居中的用戶和云儲存系統交互的紐帶,利用該模塊可以透明地為用戶提供底層實現的各項功能。
存儲模塊為新一代智能家居云存儲系統提供了透明的存取功能。文件讀/寫模塊主要負責將上層邏輯處理和底層存儲進行隔離。
邏輯結構:請求處理后傳輸至存儲模塊,再由存儲模塊發送到面向智能家居的大數據云存儲模塊,在該模塊中實現大數據云存儲。
每個數據的處理流程:
每一個數據都有一個ETL,就是抽取、轉化,然后去加載,包括做數據的清洗。如果數據大批量進來,有些數據可能是有問題的。比如說,好多地址會寫得比較模糊,如果要搜索北京這個詞的時候,數據倉庫里可能只有一個京字,這些都要統一整理成一個,比如說北京,這樣后面分析就會簡單,比如山東,有人會輸入“魯”字來進行搜索,而不是山東,這就需要在大數據分析前期做好數據清理工作,做規范化,這樣后面的數據分析起來就方便很多。
大數據的分布式計算:
通常用于數據分析平臺的分布式計算平臺內的存儲不是我們以往面對的網絡附加存儲(NAS)和存儲區域網絡(SAN),而通常是內置的直連存儲(NAS)以及組成集群的分布式計算節點,無論是數據部署安全、保護和保存流程都非常復雜。但大數據分析中包含各種快速成長中的技術,簡單用分布式技術對其定義也并不準確。
大數據在智能家居領域的貢獻
我們每個人都是數據的貢獻者,全球平均每人大概攜帶200GB的數據,而智能家居作為圍繞人與設備的新興領域,大數據對于相輔相成的貢獻也是不言而喻的。我們談論的一定是有價值性的采集,如果我們都不知道哪些數據要采集或者放棄,最終搭建數據分析系統的時候,可能會不知道怎么搭建,也不知道用什么技術,甚至收集到許多無用的信息純屬浪費時間。我們可以把企業的運營、產品、用戶使用情況、設備信息都存儲,但是提取分析要有清晰條理的規劃,最終的數據價值才有意義。
智能家居系統的所產生數據的包含面非常廣,既有硬件傳感器的數據、也有硬件本身的數據運行狀態、也有用戶和硬件交互的數據,還有用戶通過APP等客戶端產生的數據、更有用戶自身的使用習慣和生活場景的數據等等,這就導致整體的智能家居所產生數據的積累速度和量都很大。智能家居企業初期圍繞業務驅動,下面一些數據是必須要收集的,建議采用分布式大規模的云存儲架構,以滿足未來企業高速發展和創新需求的必然趨勢。
智能家居大數據的采集內容:
智能家居大數據的采集內容,包括APP的使用情況、故障自診斷信息、服務運營信息、用戶畫像、設備使用狀態、用戶使用行為、APP交互行為、用戶信息數據、設備功能信息、用戶信息、設備功能信息、設備日志、APP日志、子設備參數與運行狀態等等其他數據。
智能家居為何需要大數據?
智能家居是多領域融合的切入點,是社會家庭管理的支撐點,是民生服務的新亮點。物聯網生產大數據,大數據支持智能家居,從智能家居到數據再到智能化,構成了從感知到認知的全過程。大數據是智能硬件競爭的制高點,可以幫助硬件廠商挖掘用戶的設備使用行為,讓廠商可以了解自己的用戶、優化產品策略和市場策略。還可以對用戶進行學習,建立用戶畫像,針對不同的用戶提供個性化智能體驗,給不同的用戶提供個性化優惠,加大二次銷售。也可以做設備活動狀態的分析、故障率的分析,這樣來指導產品、硬件后面怎么做迭代層、怎么做升級,包括知道用戶喜歡用什么功能、用戶在什么時間段喜歡用這個功能,知道后面營銷策略針對哪些地域作為重點。利用大數據可以挖掘出非常多的價值,這需要在IoT領域不斷地去探索。
云計算與大數據
想獲得海量數據,設備必須接云,智能家居領域將面對的將是千億乃至萬億的設備。如果在云安全部署還未成熟的情況下,就將這些設備盲目入云,將會導致不可想象的災難。所以數據前提是云安全,所以云計算的方式方法至關重要。
云計算和大數據是一個硬幣的兩面,云計算是大數據的IT基礎,而大數據是云計算的一個殺手級應用。云計算是大數據成長的驅動力,而另一方面,越來越多的數據需要云計算去處理,所以云計算與大數據是相輔相成的,在智能家居產業中體現得更加淋漓盡致。
未來通過云計算對大數據進行存儲分析和準確提取的同時,需要深度學習和深度挖掘數據,模擬學習用戶行為,實現更加“聰明”的智能體驗。
點評
很多企業,尤其的是大的國企在做智能家居時,會上很大的決心和項目,對于海量數據收集他們也是很感興趣。追隨潮流搭建大數據平臺后,實現的結果是PB級存儲能力和秒級處理能力,也許并不接入公有云去收集到大量數據,最終只是先存起來,等需要的時候再用,其實這種思路是沒有必要的。隨著大數據技術的不斷改進,其靈活性、透明性和魯棒性會不斷提升,有效的存儲、管理和維護形式也在不斷的發生著變化,可行性和實用性才是大數據的本質。如果不能利用數據產生價值,將非??上?,也將是一個災難,數據產生越多,存儲空間、浪費的資源也就越多。但總體來看,數據運營不論以間接生產力還是直接生產力的方式體現,最終的都會成為下一個時代的新浪潮。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23大咖簡介: 劉凱,CDA大咖匯特邀講師,DAMA中國分會理事,香港金管局特聘數據管理專家,擁有豐富的行業經驗。本文將從數據要素 ...
2025-04-22