熱線電話:13121318867

登錄
首頁職業發展大數據數據源從哪里來
大數據數據源從哪里來
2016-07-31
收藏

大數據數據源從哪里來

大數據好像很神秘,可是再神秘,它也跟傳統學科一樣,需要被拷問大數據數據源從哪里來的問題。

其實數據無處不在,政府、網站、商業伙伴、甚至你自己的身體。雖然我們不是完全淹沒在數據的海洋里,但可以看到幾乎所有的東西都可以(甚至已經)被測量了,不管你是有意識還是無意識。
在O’Reilly傳媒公司,我們經常會把來自Nielsen BookScan的行業數據與我們自己的銷售數據、公開的亞馬遜數據、甚至就業數據組合起來研究出版行業發生了什么。
一些網站更甚,比如Infochimps和Factual,可以提供很多大型數據集的連接,包括天氣數據、MySpace的活動流數據、體育活動比賽記錄等。Factual網站還招募用戶來更新和改進它的數據集。這些數據集覆蓋了從內分泌學家到徒步小道等的廣泛內容。
現階段我們用的數據都是Web 2.0的產物,也遵守摩爾定律。Web讓人們花更多的時間在線,同時也留下了他們的瀏覽軌跡。移動端應用則留下了更豐富的數據軌跡,因為很多應用都被標注了地理位置信息或附帶著音頻和視頻。這些數據都可以被挖據。
結帳點設備和經常購物者購物卡使得獲取消費者的所有交易信息(不光是在線信息)成為可能。如果我們不能存儲這些數據,那么所有這些數據就將沒有用處。這里就是摩爾定律起作用的地方。
自80年代早期開始,處理器的速度就從10Mhz增加到了3.6GHz,增加了360倍(這還沒考慮處理位數和核數的增加)。但是我們看到存儲能力的增加則更為巨大。內存價格從1000美元每兆字節降到25美元每吉字節,幾乎是40000倍的降低。這還沒考慮內存尺寸的減少和速途的增加。
日立公司在1982年制造了第一個吉字節的硬盤,重大概250磅?,F在千吉字節級別的硬盤已經是普通消費品,而32吉字節的微存儲卡只有半克重。無論是每克重的比特數、每美元比特數或者總存儲量,存儲能力的提升已經超過了CPU速度的增幅。
摩爾定律應用于數據的重要性不僅是極客的技巧。數據的增長總是能填充滿你的存儲。硬盤容量越大,也就能找到更多的數據把它填滿。瀏覽網頁后留下的“數據排氣”、在臉書上添加某人為朋友或是在本地超市買東西,這些數據都被仔細的收集下來并進行分析。
看了以上,相信你已經知道大數據數據源從哪里來的了。數據存儲的增加就要求有更精致的分析來使用這些數據。這就是數據科學的基石。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢