
因應大數據時代,電腦架構也要大改造
幾乎所有的人對沃森電腦的印象,都停留在「危險邊緣」節目上看到的畫面:冷冰冰、深紫色系的電腦螢幕,豎立在另外兩位人類參賽者中間,會發出詭異的電腦語音。
完整的沃森電腦,當然不只是電視螢幕上看到的那樣,如果有機會前往紐約參觀IBM全球研發中心位於約克城高地的實驗室,你就會看到原汁原味的沃森電腦,不但能夠理解為什麼沃森電腦能在「危險邊緣」中勝出,也會同意為什麼非得用顛覆傳統的方式,才能設計出新世代的認知運算電腦了。
沃森電腦放置在約克城高地實驗室二樓的數據中心,由九十二臺伺服器組成,堆滿整整兩排冰箱大小的金屬框架。這兩排金屬框架之間的走道盡頭,有一道門,形同把沃森電腦所在的房間,再隔出一個小房間。走進這個小房間,你會聽到室內空調的風扇跟伺服器本身的小風扇一起嗡嗡作響,震耳欲聾,可見沃森電腦微處理器散發的熱量非??捎^。這可不是一件好消息。
固然,在「危險邊緣」比賽的時候,沃森電腦微處理器運作的速度,比世上第二快的一般電腦的運作速度,還要再快上以數據為中心的電腦一倍;但是代價就是,沃森電腦會散發龐大的熱量、以及散熱風扇會發出不小的噪音。這顯示了耗能問題非常嚴重:沃森電腦全速運轉時的耗電量,高達八萬五千瓦,足以提供一座小鎮的照明所需;相較之下,人腦只需要消耗二十瓦的能量而已。
除非我們可以用連跳好幾個數量級的方式,來提升電腦的運作效率,否則未來認知運算電腦的成本,將高到很難成為我們廣泛運用的好幫手。IBM全球研發中心的科學家認為,如果要在大數據時代設計出符合環境永續概念的電腦,我們一定要能設計出新型態的電腦──以數據為中心的電腦。
新電腦必須大幅減少傳輸數據的動作
傳統電腦以處理器為核心,由微處理器扮演馮諾伊曼架構里中央處理器的角色,這自然也是電腦執行最多動作的地方。微處理器搭載作業系統後,會向電腦的其他組件發出指令,像是要求記憶體、硬碟傳輸數據等。而如果是大型網路中的一臺電腦,則有可能需要用遠端傳輸的方式,才有辦法取得其他電腦儲存的數據。
新世代的電腦一定要能大幅減少傳輸數據的動作,也就是以數據、而不是處理器做為運作核心。按照IBM先進系統設計部門主管達華里(Bijan Davari)的說法,新的設計架構將可以把許多任務畢其功於一役,不但可以增加電腦運作的速度,大幅提升省電效果,更重要的是促成充分利用大數據的可能性。
電腦的運算能力自從1970年代,工程師開始在單晶片里塞進愈來愈多的電晶體後,獲得了迅速提升,專業術語叫做堆棧(scaling),意指在相同面積上堆放更多資源的能力,好比說是更緊密的電路布局、或是更多的記憶容量。而在單晶片完成更多堆棧的過程,就叫做微縮(scaling down)。
不論是企業界或是政府單位的電腦,經過多年使用之後,都需要更優秀的運算能力,因此電腦業者開始推出伺服器,專門處理大量、復雜的工作,主要的做法有兩種,其中一種是在一臺伺服器內,裝上運算能力更強的零組件與其他資源,通稱為升級(scaling up),IBM的大型主機即采取這種做法;另一種做法是擴充(scaling out),是把多臺伺服器串連、視同一臺大型伺服器般使用,這也是超級電腦跟Google數據中心伺服器大軍的做法。
IBM的科學家相信,未來以數據為中心的電腦將具備一種基本特徵:電腦工程師會設法把記憶體跟邏輯線路,整合在一以數據為中心的電腦顆緊致的立體晶片中,采用斂合(scaling in)的新堆棧方法。
新玩意:混合記憶體模塊
現今的記憶體只是把一層矽晶跟數不清的數據存取線路,整合成一顆電子元件,主要做為數據暫存區之用,并依照微處理器的需求傳輸數據。
記憶體在電腦內占有一定空間,數據傳送也是個負擔沉重的工作;如果把記憶體晶片像一層層烤餅堆疊在一起呢?那不但可以大幅縮減體積,同時也能減少數據傳送的負擔。這種新概念的產物,就是IBM與其他電腦大廠正在研發的混合記憶體模塊(hybrid memory cube)。
混合記憶體模塊是個奇特的小玩意兒,可以在一個立方體內把好幾層記憶體堆疊在一起,在垂直貫穿模塊的一個小通道內配置線路,用銅線把所有物件串連在一起,讓最底層的邏輯線路可以直接連結到其他各層的記憶體,只把萃取過的減量數據傳送給微處理器統合使用。這種新設計可以縮減現有記憶體百分之九十的體積,減少百分之七十的耗能。
未來,記憶體模塊渴望再內建微處理器,逐步走向記憶體與處理器合而為一的境地,打破馮諾伊曼瓶頸的限制。
這項新科技會對未來的電腦帶來重大影響,譬如用於原油探鉆、汽車撞擊測試的大型超級電腦,體積會變得更小、更省電,下一代使用混合記憶體模塊的伺服器數據中心,也不再需要在龐大的室內空間耗掉可觀的散熱電力。這項技術繼續發展的話,未來即便是智慧型手機、平板電腦、或是其他行動裝置,也都可以將運算能力提升到一個難以想像的境界。
新概念:微處理器分散架構
以數據為中心的電腦具備的第二種基本特徵是:電腦內部的分散式配置方式。
今日的電腦,有微處理器擔任神經中樞的角色,負責處理所有或大部分的運算工作,因此運算時派得上用場的數據,都要在原本存放的位置與微處理器之間不斷往返傳遞,用跑馬拉松來形容也不為過。未來以數據為中心的電腦,會把微處理器分散在系統的不同位置,大大降低數據搬動的必要性。
微處理器分散架構的概念,已經在某些專門用於分析龐大數據數據的特用電腦上進行測試。紐約州立大學水牛城分校神經科學教授拉曼納森,即參與了其中某一項測試計畫。
多發性硬化癥會讓人痛苦異常,患者的免疫系統會主動攻擊自身的大腦與脊髓,導致病患失去行動能力,并造成認知失調問題。這種疾病多半會在年輕成年人的身上發病,目前病因成謎,也無法醫治。拉曼納森的研究主題,是找出基因和環境因素與多發性硬化癥的相關性,進而找到醫治的方法,或是起碼找到能夠預先防治的方法。拉曼納森研究工作最大的挑戰,在於人類基因可能導致多發性硬化癥的組合方式實在太多了,如果再加上飲食作息、抽菸喝酒等環境因素的影響,則多發性硬化癥潛在病因的可能組合,將呈現指數般的爆炸性成長。
換句話說,拉曼納森的研究重點在於克服龐大數據帶來的技術障礙,而傳統超級電腦欠缺大量平行運算的能力,因此也沒辦法有效處理拉曼納森所面對的問題──亦即所謂數據密集(data-intensive)的問題。拉曼納森需要一臺可以把研究主題切割成許多分段、送交好幾千顆微處理器進行平行運算後,再從平行運算的結果推導出最後答案的電腦。如果要有效解決拉曼納森面臨的難題,勢必要采用平行運算搭配以數據為中心的微處理器架構。
於是,拉曼納森的研究團隊設計一臺專門用於數據密集分析的電腦,這臺冰箱大小的專用電腦采用特制的微處理器「現場可程式閘陣列」(field programmable gate array, FPGA),在數據儲存區先行過濾數據,之後再把有用的部分傳給中央處理器,進行後續的數據分析。這套微處理器可以程式化設定需要搜尋的數據,因此可以有效過濾高達九成的數據量,讓中央處理器僅針對篩選過的數據進行分析即可,不用照單全收;就形式上而言,如同傳統電腦只在記憶體進行存取,省去讀取硬碟的步驟。如此一來,這臺專用電腦可以減少數據搬動,連帶達到省電效果,并提升電腦中樞的運算速度與效率。
接下來,我們用拉曼納森研究數據分析團隊實際取得的績效,說明這臺新電腦的效率高到什麼程度。研究團隊完成安裝後不久,把十萬種基因組合與包含各種環境因素在內的數據,統統輸入電腦進行運算──相當於有五十億種「雙變數」的組合、或是一百兆種「三變數」的組合需要進行推算。
結果,新電腦只花了十一分鐘,就把傳統電腦需要花二十七小時計算的答案,給算出來了。坐在紐約州立大學辦公桌前的拉曼納森,收到一封運算結果摘要報告的電子郵件,他說:「這個結果讓我感到興奮莫名,有如在眼前開啟了一扇機會之窗。我們,終於有機會解決以往難以處理的問題了?!?/span>
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25