熱線電話:13121318867

登錄
首頁職業發展當我們談論大數據的時候,我們談論什么
當我們談論大數據的時候,我們談論什么
2015-12-20
收藏

當我們談論大數據的時候,我們談論什么

在過去的周末,一年一度的美東華人創業狂歡 MIT-CHIEF年會在麻省理工落下帷幕,其中的幾場圓桌論壇干貨滿滿。今天為大家帶來的是大數據行業的圓桌 Big Data Panel 的內容,其嘉賓囊括了大數據幾個實際運用領域的從業者和專家。以下為本場圓桌內容摘錄整理,有刪節。

大數據

問題一:在各自的大數據運用領域,我們現在看到的數據究竟有哪些?

出門問問李媛媛:對于創業公司,因為其初創的性質,在數據采集的渠道上有其天生的短板。因此從數據的種類而言,我們只從一個垂直領域切入:地圖 POI,而且目前只聚焦普通話語音數據。對于數據獲取的渠道而言,我們在今年推出了一款可穿戴式硬件 Ticwatch,提供了數據的入口。除了數據獲取上的挑戰,由于大量用戶的私人數據將會被收集,從我們開始收集分析數據伊始,就注重數據隱私的基礎建設:于前端,我們會與用戶積極溝通并指出我們所收據的數據種類;于后端,我們致力于提供最完善的數據加密保護。

Procyon Ventures Drew Volpe:在企業級運用時,我們看到的不單單是數據的初始種類,而更多的是加上其它層級數據之后的意義和運用。比如我之前創立的公司,同樣也是運用傳感器與可穿戴設備收集用戶的車行數據,但是我們通過算法分析之后可以推斷出用戶的駕駛能力和安全指數,從而為保險公司提供了計算保金的基礎。這也同時回到剛才提到的數據保密問題,我認為現在大數據面臨的挑戰之一就是建立一個有效的數據保密評定系統和基礎設施。因為現在越來越多的工具可以將表面看上去簡單或者非敏感數據在一定得分析之后推導出隱私數據,比如地圖數據,表面看上去無害,但是當我追蹤了你過去三年每天的出行記錄之后,我可以輕松得知道你的家庭、公司住址,消費習慣,甚至是去醫院的次數等,因此我認為大數據從業人員有義務和責任捍衛好海量數據的私密性和安全性。

大數據

問題二:在獲取數據方面有哪些挑戰?

波士頓市政府 Kelly Jin:在波士頓,我們看到的數據種類主要基于市民與政府各部門的 “觸點”:比如你的交通罰單、稅單、出入政府機關部門的人流數據、公立學校的各種紀錄等;大數據在公共領域運用的很大難題,特別對于政府機關內部的數據團隊而言,為數據的質量和采集。這個問題首先來自于政府部門的自身的傳統運行模式,許多部門仍然采用非電子化文檔管理,或者并不擅于建立電子檔案,于是作為政府內部的數據科學家,我們做的首要工作是引導,并轉化這些傳統紙質數據變為電子實時數據,并在分析前進行大量的清理和管理。同時政府內部的數據雖然有十分巨大的潛力,但分析能力仍然有限,所以我也鼓勵創業團隊與我們合作,共同研究開發公共數據的實際運用。

億可能源寧可 & Target 50 Matt Conway:我們看到的更多的是間歇數據(interval data),我們依賴不同的傳感器和智能電表為我們提供 5-15 分鐘間隔的能耗數據。如此海量的數據,由于不同的電表/傳感器公司的生產標準不同, 儲存數據的格式也大相徑庭,于是我們在分析數據時往往不能采用標準化的算法進行數據處理。更糟糕的情況是,當我們和電力公司合作時,由于現在市場上公司間并購非?;钴S,當兩個電力公司合并后,數據往往無法調和,于是出現相當大的錯漏問題。在能源領域,數據私密性也同樣是一個大難題,很多不相關的數據往往可以推導出一些企業并不想披露的信息。比如我們曾經為一個大型審計集團的辦公樓宇進行能耗分析,但是他們卻不愿披露相關信息接口,原因是一旦我們拿到相關每 5 分鐘的照明數據,我們可以清楚得看到公司不同部門在稅務忙季的加班情況和與去年的對比,以此推斷企業的業績等。

大數據

問題三:如何具體在大數據中挖掘商業價值,并分享一些你們現在正在運用的比較創新的開發模式

波士頓市政府 Kelly Jin:我們現在看到政府內部大數據運用最大的價值來自于對效率的大幅提升。舉最近的一個例子,稅收部門每年需要重點抽查和核定一定房屋和社區的房產稅?,F在的做法是,審計部門翻閱大量的報告,比如該家庭是否今年買了新房,是否翻修超過一定金額等,然后篩查出終點家庭,再進行核查和重新評定。作為政府內部的數據服務部門,我們將這些傳統的篩查標準轉化為運算法則,將整個人工密集的預篩工作從原來的 2 星期,10 人工作量,縮減到 7 分鐘的自動操作,大大釋放了政府職能部門的效率,讓他們可以專注于真正應該專注的工作領域。

Procyon Ventures Drew Volpe:我想要分享的是一個系統方法論。我覺得真正挖掘出價值的大數據企業都是從問題出發,而非數據本身出發。

第一步,判定你要解決或者是你針對客戶需要解決的問題。在剛才的政府例子中,我們看到這個問題很明顯,就是解決政府效率的問題,讓一些重復的工作自動化。

第二步,觀察你手上握有的數據,是否足夠解決你定義的問題。如果不夠,是否可以運用已有數據直接推導,如果不行,定義你額外需要的數據種類。

第三步,定義了額外需要的種類之后,才是確定如何采集這些現在并沒有的數據, 如果采集不到,是否有其它的方式可以獲得。

大數據

問題四:大數據類型的初創企業往往有一個”Cold Start” 問題,即,用戶數量太小導致數據不夠,而用戶數據越是不夠越是無法優化機器學習和算法,這個問題如何解決?

Procyon Ventures Drew Volpe:
我從自身創業經歷說一下好了,我之前創立的公司 locately 是一家基于位置數據的大數據信息服務公司。創業的一開始其實就是 bootstrap,有點草船借箭的意思。我們最開始的數據都是人為手工輸入的,基于 20 個種子用戶的全天 24 小時原始位置數據。明顯這樣做并不能規?;?,但是卻可以讓你至少有一個起點,然后我們用這些數據和算法向潛在客戶和投資人證明我們可以在這個基礎上挖掘的商業價值和產品功能,然后我們開始積累更多的種子用戶,做更多的示范項目,以此獲得更多數據。的確一開始我們的機器學習模型比較簡單,但是隨著數據量的增加,我們更好得迭代了算法。我覺得重點還是要放在如何展現你可以挖掘的價值,而非你的模型有多么多么完美。另外比較常見的方法就是爬蟲,當你定義完你需要的數據之后,看看有哪些是可以通過爬網獲取的,如果再不行,就看看哪些可以通過第三方數據訂購獲得??傆幸恍┓椒梢宰屇銖?0 跑起來。

大數據

問題五:大數據未來的趨勢是什么?今后的熱門應用領域有哪些?

Procyon Ventures Drew Volpe:

我覺得大數據的運用前景因為硬件/傳感器的成本大幅降低而被釋放了更多的潛力?;仡欉^去十年,我們看到物聯網傳感器的成本以百倍速度降低,大大降低了原來因為硬件成本過高,而造成數據獲取過高而無法進入的領域。除了我們現在看到的消費者數據和信息,我認為以后的大數據趨勢將會集中在” 工業 4.0” – 特別是物流、基建和能源三塊。在美國,物流代表了 GDP 的 9%,這是一個超百億美元的量級;在中國,物流占 GDP 的近 1/5。以我最近投資的一個公司 WEFT 為例子,這是一家做船運物流的大數據服務提供商。以往,每件商品植入 GPS 追蹤系統是非常高昂的,但是現在我們可以通過成本低廉的傳感器用來捕捉實時運輸數據,并綜合大量外部數據,通過深度學習技術給予最精準的貨品物流時間和可能的風險預判。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢