
大數據:認識它、管好它、用好它
要問當下什么最熱?當屬大數據。這個“大”能到什么級別,IBM也無法準確地告訴你。大數據何以如此火熱?因為處理大數據的增長,以及利用大數據的能力將成為許多企業的一項優先任務,否則未來幾年企業必將受制于這些數據和他們的競爭對手。 這不是個別IT巨頭獨自在鼓吹什么,或人為制造科技新陽謀,而是真實存在的情況。
如何認識它們,管好它們,用好它們。你想好了嗎? 現在,隨著攜號轉網、3G等漸入人心,運營商們的日子可不那么輕松。至少中國移動、中國聯通天天都得思考這樣的問題:每天什么樣的客戶要離開他?這類客戶有些什么特征?怎樣去找到這類客戶?想要解決這些問題,就需要一套系統去分析已經離開的客戶是什么原因導致了他的離開,在轉網前這些人有哪些行為征兆。 在微軟內部有這樣一個部門,過去六年他們都在為醫院生產軟件,因此擁有一個巨大的醫院數據平臺。所有醫院的信息,包括臨床手術系統產生的數據,都可以輸入其中。而微軟將這個系統提供給了一些世界的大型醫院,包括中國的醫院,幫助醫院找到并從大數據中提取一些問題。因此,這個部門提取了醫院10年的數據,做成一套產品,用歷史數據回答醫生回答不出來的問題。
事實上,在醫療行業,世界各地的醫院都面臨一個很大的挑戰,就是重新接納病人入院的問題。病人去醫院治病,治好就出院了,但出院的病人中有很大比例可能在之后3~30天時間內,因為與之前所得的病相關原因,需要再次返回醫院。是治療過程或住院過程中出現什么問題導致他們重新入院治療?過去20多年當中,沒有人能弄清楚。如何讓數據告訴我們,他們為什么又回來了?機器學習系統花了一段時間,找出非常具體的入院規律,如一些人重新入院的可能性格外高。一旦找出規律,就可以做一個預測模型。只要看到某些因素出現,就可以預測這些病人重新入院的比例和可能性有多高。 這套預測模型的價值有很重要的一點,是能夠預知病人為什么重新回來治療。醫院有了這個模型,每天在云端運行服務,讓病人排隊,看看重新入院的可能性。而醫生不再只是圍繞手邊的病人開展工作,還能有些預見性的工作。病人也不會因為再次發病而重新回到醫院,大大降低了醫療成本。 其實,這些實例還只是冰山一角。今天在金融、政府、公共服務等更多領域,都存在這樣的現象:即因高速帶寬而產生的Big Data(大數據)以難以想象的速度迅猛增長。而這種快速增長不光使企業數據管理的壓力激增。同時,企業還需要更好地利用這些數據,并從中找到與企業業務關聯度很高的數據,進而為企業商業決策服務。因此,能否有效挖掘數據的商業價值,每個企業都有必要重新審視自身的數據戰略。
誰在制造恐慌
IDC報告指出,未來10年全球大數據將增加50倍。僅在2011年,全球將看到1.8ZB(1.8萬億GB)的大數據產生,相當于每個美國人每分鐘寫3條Twitter,而且還是不停地寫2.6976萬年。而未來十年,管理數據倉庫的服務器數量將增加10倍以便迎合50倍的大數據增長。 無疑,數據量的倍增趨勢已毋庸置疑。至于數據的存儲、管理和分析等應對大數據的難題拋給I T技術服務商就好了,企業還在憂心什么呢? 事情顯然不同于1+1=2那么簡單。業界一度認為,過去有問題找技術商的想法在大數據時代或許再也行不通。 Gartner認為,全球信息量每年最低增長率為59%,其中15%是結構化數據(原來的數據都可以用二維表結構存儲在數據庫中,如常用的Excel軟件所處理的數據,稱之為結構化數據),其余85%將由各種非結構化數據組成。所謂非結構化數據,指不便用數據庫二維邏輯表來表現的數據,包括所有格式的辦公文檔、電子郵件、文本、圖片、XML、HTML、各類報表、圖像和音/視頻信息等。
顯然,“85%”,對占比如此之高的非結構化數據,企業和技術服務商都不能忽視,要順利解決大數據需求,首要問題便是先要應對這種大規模數據類型改變所制造的麻煩。 因為當這些非結構化數據不斷增加時,也給數據庫廠商、系統架構師、數據庫管理員及其他開發人員帶來了前所未有的技術挑戰。 特別對傳統數據庫而言,非結構化數據的高增長讓傳統關系型數據庫幾乎無能為力,并且以傳統數據庫跑大數據,對系統軟硬平臺的要求都極高,成本又是企業的一大問題。 對此,SAP HANA項目組一位開發經理告訴記者,應對大數據需求,傳統數據庫存在幾個致命問題:一是它的設計都是關系型數據庫,基本上DB2、SQL Server都是以行式展現的;二是它的存儲都在磁盤上,對計算機而言,磁盤的運轉速度跟內存無法比擬;三是網絡傳輸瓶頸,報表在客戶端,數據在后臺,完成一次查詢動作,需要經網絡傳輸一個來回,一旦數據量巨大,網絡傳輸壓力可想而知。
而鑒于大數據分析當前在國內還缺乏較為成熟的實踐經驗,其方式方法又與傳統數據倉庫及商業智能系統都存在一定差別,企業想要用傳統數據倉庫和商業智能工具來應對明顯也力不從心。 曙光公司大數據研發項目經理宋懷明表示,目前市場上的商業智能軟件主要還是針對結構化數據進行挖掘,對非結構化數據一是處理不了,另外在處理結構化數據上,定位也有所不同。商務智能軟件非常昂貴,企業如果不將數據業務跟其商業利潤掛鉤,而只是做數據分析和挖掘,買商務智能軟件極不劃算。因為現有商務智能軟件是按數據規模來收費的。像銀行這些交易數據本身跟利潤掛鉤且又需要進行一些數據分析,但其數據規模比起互聯網企業小很多的,它們買商務智能軟件比較合適。但對網絡的日志行為分析、關系挖掘一類應用,不僅數據量很大,數據結構也很復雜,商務智能軟件就不是很適合。因此,企業還是要根據自身需求來選擇。而且大數據分析所需軟件跟傳統商務智能、數據挖掘軟件的差別還是很大的。 看來,大數據需求面前,企業的擔心都是數據類型改變惹的禍,罪魁禍首便是暴漲的非結構化數據。 出于這些因素的干擾,企業在大數據需求面前顧慮重重也就不難理解了。
久經考驗的傳統關系型數據庫應用既然不可能馬上就全面被替代掉,傳統數據庫廠商也不可能為此自毀長城,全盤推翻自己生存的根基。是不是再無他法了呢? 現實情況或許還不那么糟糕。對數據類型改變所帶來的挑戰,Informatica公司的一位高級產品經理Ram Subramanyam Gopalan在其博客中指出,圖像和音頻,甚至視頻其實都能轉換為文本數據,而文本數據則可轉換為實體集合,即包含屬性與關系的結構化數據。經過一些處理能將這些數據的結構找回來。雖然目前對找回這類數據的結構缺少一定的工具,但至少非結構化數據轉化成計算機熟悉的結構化數據是存在一定途徑的。只是等待能夠實現這種轉換的條件出現還需要些時間。 如果趕在大數據時代真正來臨前,這種數據自身可以進行轉化的情況還未實現,那么至少從現在來看,從傳統數據庫廠商到傳統數據分析廠商不會坐以待斃,起碼積極提出了各自的一些應對辦法。
盡管這些辦法還都處于小試牛刀的狀態,但至少讓企業有章可循。 歐美廠商唱主角 Gartner在2011的“新興技術成熟度曲線”報告中將大數據視為一項具有新特點和高影響力的技術趨勢,圍繞大數據、海量信息處理和管理等轉型技術將在未來五年進入主流。 而嗅覺敏銳的歐美存儲和數據倉庫廠商早已聞風而動。畢竟EMC、NetApp、HP、IBM、Oracle、微軟這些傳統廠商要考慮如何在快速變化的大數據時代迅速定位。 因此,2011年前后,許多歐美巨頭紛紛布局大數據市場。數據倉庫廠商一下成了巨頭們收并購的香餑餑,各類大數據解決方案或產品也紛紛推向市場,一派熱鬧景象。 像EMC索性利用收購來的Greenplum、Isilon和VMware,將自己的未來身家性命全部押寶在了大數據和云計算的交匯點上。IBM利用收購來的數據倉庫廠商Netezza以及InfoSphere BigInsights和Streams軟件來證明自己在海量數據處理上實力一如既往。NetApp收購Engenio以及后來與Cloudera合作,都讓它在大數據占據一角。Oracle在2011年下半年通過接連推出大數據機和Exalytics商務智能云服務器兩個重要的大數據分析產品,彰顯自己在大數據時代也非弱者。
那么,大數據時代到底什么時候到來?各家說法不一。EMC中國卓越研發集團主席范承工博士告訴《軟件和信息服務》記者,“我們已經處于大數據時代了”。其實EMC說自己兩年前就在談大數據并非妄語。目前在EMC的客戶中,大多數大型企業客戶在數據存儲量方面早已達到PB級。問題是,當前用戶對硬件系統要求要有非常高的可擴展性,要求能夠應對大數據存儲需求。 因此,在范承工看來,比起以往的IT系統,現在大數據需求對系統技術挑戰將表現在幾個方面:基于英特爾架構較便宜的硬件基礎作為技術組成部分,再往上一層,對分布式存儲軟件的需求會更大,即怎樣能夠使非常大且可擴展的分布式存儲很好、很便宜地讓客戶用到;然后再上一層,是怎么和新的數據管理系統很好地集成。
為了應對大數據,EMC內部不光已將其全部存儲產品都逐步向大數據需求的平行擴展方向做改進,還借助收購Grennplum和Isilon,宣布支持HDFS(即Hadoop的分布式文件系統),可對Hadoop運算產生支持,實現從硬件、軟件和數據處理系統集成上統一應對大數據時代的存儲要求。說起T-mobile,它是美國一家手機運營商,正因為用了EMC的Greenplum產品,只花兩個星期做了一個大規模的數據分析,最后竟然獲得了每年運營增加1億美元這樣一個很可觀的收益。
不過,大數據處理環境并非是在全盤否定企業以往的IT系統。范承工認為,有的系統是可以在整個大數據處理系統環境中留存的;有的系統可能會隨著大數據的產生逐漸過時,并被淘汰;而數據庫技術仍有需求,不過會和大數據系統并存。 而隨著大數據需求的激增,IT廠商的競爭勢必將更加激烈。在范承工看來,在大數據時代,誰的位置離數據更近,誰將會具有更多優勢;誰對新技術掌握最快,誰就具有優勢,“機會與挑戰并存”。 毫無疑問,大數據需求不光要廠商重新審視自身定位及技術實力,也為IBM、EMC、SAP等這些長期占據高端市場的企業帶來了福音,在高端市場增長乏力的情況下,大數據需求的開啟無疑為他們提供了一個再度深挖這一市場的藍海。 在此,范承工毫不避諱地告訴記者,大數據對傳統數據庫的顛覆無疑會直接影響到EMC傳統存儲業務收入,這在EMC整體收入中占據了相當的部分。但EMC收購Greenplum,尤其后者對非結構化數據的存儲,足以彌補依存傳統數據庫市場的業務壓力。Greenplum在去年成為EMC上升最快的一個產品,上升4倍是最佳佐證。
此外,EMC還推出了統一分析平臺(UAP)來全面應對大數據需求,“一種技術統治天下的時代已經過去,現在是一個百花齊放的時代,而最好的數據分析平臺就需要將很多種不同技術結合在一起,我們在UAP里結合了傳統數據庫、分布式數據庫以及Hadoop等非結構化數據處理系統,再配以EMC的合作軟件Chorus,能夠使每個數據分析師有一個很好地完整平臺,各種各樣來源和類型的數據都能夠進行整合性分析”,范承工認為UAP將是EMC應對大數據的又一個致勝籌碼。 就在企業用戶、傳統數據庫廠商和存儲廠商都在為自己在大數據需求面前想盡辦法時,SAP HANA的推出無疑為沉悶的市場投入了一劑強心針。用SAP自己的話說,HANA是一款全新的數據庫,它不光解決大數據量的問題,還解決非結構性數據庫的問題。 比起傳統數據庫,HANA運算到底有多快,用戶運行一個業務數據可能在上百萬條的報表,傳統數據庫大概要跑一天多,而現在HANA上跑不到十秒鐘就處理完了,用SAP業務人員的話說是“極其夸張”。SAP中國區副總裁許正岡指出,傳統關聯數據庫很難同時快速地訪問數據,因為它里面建了很多預置訪問,這也是為什么數據庫那么龐大,出來的結果又非常慢的原因。
據了解,HANA首先是基于列的,基于列的好處是在做聚合、做分析的時候很方便。另外,它完全是在內存當中,做任何計算都在內存中完成,由此內存產生的運算速度無疑遠快于磁盤,可能數據量有幾百萬條,但運行后的結果就幾k,瞬間完成,所以HANA被SAP視為至寶。 為使HANA為企業所用,SAP業務人員表示,對目前已部署了傳統數據庫如SQL Server的企業用戶,如想加速搜索和分析,企業只需購買一個經SAP認證的集合了HANA軟硬件在內的硬件服務器加在系統機房內,并結合B1做簡單設置,就可以利用HANA快速的運算來進行數據分析了,并對企業原有數據庫無需做任何改變。
下一步,SAP將推出HANA的全新版本,作為完全替代SQL Sever等傳統數據庫產品的利器,實現所有業務運算、搜索、分析都由HANA完成,最大數據量可達PB級。SAP亞太及日本區商務解決方案事業部高級副總裁柯德泰指出,在大數據背景下,SAP的主導戰略將依賴以HANA為代表的內存計算技術,而HANA與移動應用的結合將產生更強大的效果,“幫助用戶在掌上設備分析海量數據,并在幾微秒內獲得結果”。
不過,雖然HANA在現有技術上是完美產品,但對企業的TCO卻也難以盡善盡美。在處理TB/PB級別時,選擇HANA對企業在內存和硬件上的投入又是一個挑戰。 當然HANA本身具有壓縮技術,對越大的數據庫壓縮比例也越大,耗費內存就越小,訪問速度更快,可在一定范圍內幫助企業節省一部分內存空間,而一旦用戶數據量難以估計時,恐怕仍無法避免內存上要做更大投入。 范承工認為,HANA是一項創新技術,但HANA也存在一些短板。它對某些工作類型比較適合,但對另一些可能不一定很適合,比如對某些工作流的處理可能并非最佳選擇。 至于IBM這個藍色巨人,大數據市場更少不了它的身影。在IBM內部專門有三個最核心的部門來應對大數據需求,包括全球企業咨詢服務部、Cognos業務分析與優化并購部門,以及中國研究院行業解決方案研究部門?!拔覀冋M入重大的跳躍階段,‘大數據’的到來,開啟了信息技術的新時代,使用大數據,可將解決方案從反應型轉變為規范型?!盜BM技術創新全球副總裁Bernard S.Meyerson博士如是說。 基于大數據的分析、預估與優化等信息技術,為經營者提供一個快速、精確與可預期結果的新型戰略決策模式。一旦大數據的價值被發掘出來,數據將成為企業創造價值的源泉,也將成為行業競爭的成敗關鍵。
通過軟件、研發與服務三位一體的整合能力,無論是收集數據以管理風力發電場的布局,還是在社交媒體網站上評估客戶意見或預測醫院的潛在致命感染,IBM認為它都可以幫助各行業客戶不斷延伸數據的價值。 作為傳統數據庫廠商的代表,IBM在其大數據版圖中,對非結構化數據的處理依舊采取了收并購策略來實現。比如2011年,IBM收購了兩家非結構化數據處理軟件廠商,風險分析軟件開發商Algorithmics及英國安全分析軟件開發商i2。此前五年,IBM為此投入了超過140億美元收購了25家專注于分析軟件領域的公司,借以幫助其客戶處理來自社交媒體、生物測定和犯罪數據庫等來源的非結構化數據。 對微軟而言,目前采取了3種解決辦法來應對大數據需求。微軟公司SQL Server產品市場經理郝雪瑩表示,對非結構化數據存儲的分析,建議用戶放到Hadoop上(在www.HadoopAzure.com根據實際需求租用)進行分析;對結構化數據和小部分非結構化數據,微軟即將于7月1日正式在中國大陸發售的SQL Ser ver及其中所含Power view就可實現一定規模的數據分析;再大規模的數據,可以選擇并行數據倉庫(PDW)進行海量分析了。 談及大數據,與之同樣被反復提及的還有一個詞――Hadoop。作為大數據處理平臺的一個重要組成部分,Hadoop成為眾多廠商應對大數據需求的一個事實上的標準工具,當之無愧地也成為許多傳統數據庫及存儲廠商應對大規模非結構化數據挑戰的救命稻草。
不過,郝雪瑩認為,需不需要Hadoop是應企業應用情況不同而不同的,比如SQL Server內置對非結構化數據的支持,如XML、博客數據類型,最大可以存儲2G,圖片、word文檔都可以。如果企業的數據庫可以處理或是適合數據庫處理,那么不一定需要Hadoop,使用與否需要根據企業的業務要求以及業務場景而定。SQL Server有連接器連到Hadoop上,不同場景,可以以不同方式管理和使用數據。 國內實地觀望,備戰中 當然,如同云計算一樣,對大數據及其引發的問題,市場依舊呈現出國外廠商唱主角,國內廠商響應積極卻從者少的局面。但市場需求卻絲毫不亞于國際市場。
2011年,電商熱鬧的“雙十一”及“雙十二”大促銷活動,因海量數據瞬間爆發而導致網絡系統一度崩潰。 電商IT技術服務商上海商派的I T運維負責人表示,突發的訪問流量主要從系統架構設計和系統運維兩個方面考慮。系統架構設計的時候要充分考慮擴容的便利性,硬件資源的準備是很方便的,麻煩的地方在于軟件架構要能適應硬件的增加。
對2011年大促出現的問題,商派則建議電商企業采取將各個子系統模塊化、標準化,降低各系統間的耦合度,將復雜的高并發問題轉化為簡單的標準模塊拼裝,并且盡可能實現拼裝過程自動化的方式。 應對高并發系統同樣需要有類似系統,如緩存系統、隊列系統。緩存系統類似于防洪堤,防止重復查詢,如刷新頁面這樣的動作傳遞到后端存儲系統,導致無意義查詢增加系統負載。隊列系統就相當于泄洪區了,處理系統實在頂不住,就先讓服務請求在隊列系統里排隊,依次進行處理。作為I T服務商,除了有系統設計,架設能力外,還要有持續改進能力,讓系統硬件架構、軟件架構匹配良好。其次就是軟實力,要能組織起人力、物力應對可能出現的突發流量,如活動前做好壓力測試,提前制定到應急預案,不打無準備之仗。 對于“雙十一”和“雙十二”的電商大促,商派采用的系統方案主要有兩部分:一個是shopex開放平臺,一個商家的ERP系統。前者是一個連接商家ERP系統和淘寶開放平臺的橋梁,之所以加上這個設計的目的是屏蔽淘寶開放平臺快速變化對商家ERP系統穩定性的影響,并起到壓力緩沖的作用。 ShopEx開放平臺在大促期間起到了攔水大壩的作用。系統根據商家ERP系統的負載情況控制訂單流量,避免商家ERP系統被海量訂單沖垮。
當時流經開放平臺的訂單量有100多萬條,API調用高達300多萬次。而大促期間除開放平臺負載暴漲外,商家ERP系統都能維持正常的工作負載運行,訂單量最高的商戶訂單量達到10萬單。 顯然,在以往用戶的接觸中,他們對大數據處理能力的需求,包括效率和安全性,以及更深層次的數據背后所反應出的消費者行為都讓商派看到了大數據分析挖掘的價值所在,目前這家IT技術商正在積極備戰中。 值得注意的是,不同于IT廠商集中于大數據分析領域的爭奪,國內市場對大數據的需求還存在一些不同的看法。愛數軟件產品副總李基亮指出,在他們接觸的用戶中,企業對如何提升大數據的保護以及如何提高現有運營平臺的資源利用率頗為關心。
事實上,企業信息化資產是數據,如何高效地保護大量數據,越來越多的企業壓力感倍增。 李基亮表示,愛數在大數據領域的出發點是數據,這也是愛數名稱的來源,愛護數據。2012年,他們將著重布局智能數據管理解決方案策略,圍繞數據生命周期的生產、使用、保護、歸檔和銷毀5個階段做足投入。 愛數在云計算和大數據領域有著大量的投入:一方面持續一體化技術框架帶來的解決方案優勢;另一方面是正在投入的云計算基礎技術架構,全面帶動愛數全系列產品進入云計算和大數據時代。 圍繞大數據的核心非結構化數據,歐美廠商可謂做足了文章。
而在國內,真正具備處理非結構化數據實力的廠商幾乎鮮見。不過,曙光數據處理產品XData下半年的推出有望填補國內這一領域的空白。 對大數據研究已有8年之久的宋懷明,目前承擔了曙光大數據研發的重要任務?,F在,圍繞曙光的產品及服務能力,他們主推四層架構的大數據軟硬一體化平臺解決方案:包括最底層物理層提供盤陣和存儲服務器(i640);再上一層是虛擬層,是代表國內計算技術、網絡通信技術以及文件系統技術發展方向的曙光并行存儲系統Parastor100、200(16PB云盤)、300(研發中);再上一層是數據處理層,是目前曙光針對超大規模結構化數據查詢和處理的數據倉庫系統DRAC,數據處理量可達100TB~600TB,甚至1PB。XData代表的正是這一數據處理層的下一個關鍵產品;最頂層是應用層,主要用于處理日志分析、用戶行為分析等。 提到XData,宋懷明興奮不已。數據處理是曙光大數據戰略的核心,重在對離線數據的分析和挖掘。而下半年將推出的XData,其意義在于曙光將突破非結構化數據瓶頸,使得他們在分析大數據中各種類型的數據時能從容應對。而XData的數據處理能力將達到幾個PB,甚至10PB。再結合曙光在國內云計算領域的實力,可以想見,未來在大數據與云計算的時代,在一批抗衡國際技術力量的國家隊中,曙光無疑將成為一股核心力量。 “國內大數據處理還較為落后,數據是有了,還不知怎么用,怎么挖掘價值,曙光準備用技術推動市場需求,比如許多互聯網企業,包括政府網站、媒體網站等?!彼螒衙髦赋?,“在大數據中有兩個可靠性也需要特別注意,一個是數據的可靠性(業界通過廉價的機器和多個副本方式來處理),一個是處理過程的可靠性(采取MapReduce的方式處理)?!?對業界追捧Hadoop,范承工表示,Hadoop本身非常有用,但它并非一個完全的大數據處理系統。Hadoop欠缺的是一個比較實時、互動的系統,當數據產生的同時能夠有回應,不能做提前預判,這是Hadoop做不到的。 誰說了算 現在來看,非結構化數據已經算不上洪水猛獸。IT服務商還是通過自己的方式為企業解決了這樣的難題。但另一個問題又擺在了面前。
面對大數據,企業在獲取數據分析價值的同時,究竟該如何選擇才有最優的TCO考量,恐怕是每個有大數據需求的企業決策者都要在心里掂量一番的問題。當然,除了對傳統軟件的顛覆,大數據分析對企業現有硬件設施的挑戰,包括邏輯劃分、訪問通路、帶寬效率等方面是顯而易見的。 分析人士指出,在實施大數據分析項目前,企業不僅應該知道使用何種技術,還應該知道在什么時候、什么地方使用?;旌蠎脠鼍帮@然是當前大數據分析環境一個比較合適的選擇。傳統數據庫、傳統BI工具都可以依舊針對結構化數據使用,而對非結構化數據的處理,則由高級分析工具上陣。 至于各大廠商讓人眼花繚亂的解決方案,究竟誰是最佳選擇,恐怕沒人能給出最佳答案。如何挖掘大數據的價值,關鍵還在于企業自身的決策層,面對市場如此之多的選擇,企業要清楚地認識到自己究竟想從大數據分析中獲得什么。
“企業在進行技術選擇時不應只看首次投入成本,Hadoop并非一勞永逸,你需要不斷對其進行維護,考慮持續的投入,無論是人力還是物力,它都可能會比傳統的EDW要大。因此企業不應一味迷信于新技術,無論是購買平臺還是進行定制,用戶需要從自身需求出發?!盩eradata首席客戶官周俊凌如是說。 郝雪瑩則認為,無論用戶掃描什么樣的數據,微軟這樣的廠商都能保證用戶能拿得到,能夠分析得了,分析的速度夠快,不出錯。但是,“我的業務模型是什么,業務真正的洞察力卻要企業自己去看”,今天想把油價和車價拿出來分析,那是用戶自己想的,微軟不會告訴你要去分析油價和車價、業務到底要做什么,這不是微軟的所長。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25