
大數據與傳統數據的區別_數據分析師
一直以來,大數據領域學習、采訪、總結、歸納的一些要點。但由于大數據還處于前期發展期,因此不可能像一些成熟的硬件產品線那樣,給大家相對成熟的理論。大數據落地會有哪些具體方向?技術實現如何搭建?我們針對大數據帶給教育的機遇與挑戰,深入探討和分享大數據與傳統數據的區別,及其行業落地的進展情況。
一、大數據與傳統數據的區別
與所有新鮮事物一樣,大數據是一個尚未被明確定義的概念。它如此年輕,以至于最時髦的大學還沒來得及趕上開設這門專業,最時髦的專家也還未能讓自己的理論一統江湖。所有對它進行研究的人都還在感悟,大數據究竟與傳統數據有怎樣的區別。
在google scholar(谷歌學術搜索)中鍵入big data,查詢近5年來的學術著作,共有355,000篇之多;而如果輸入“big data”與“education”兩個關鍵詞,模糊匹配下約出現17,600條結果,而精確匹配下則不足10篇??梢?,教育領域的大數據挖掘,仍然是一片未開墾,未有先來者制定規則的處女地。而在傳統數據領域,一次PISA考試就能在全世界各地產生300篇以上的博士論文,全世界教育與心理計量方向每年約培養碩士與博士5000人,教育與心理統計分析相關的SSCI核心期刊多達489種,為IES、ETS等機構提供數據分析的專業機構有160余家,從業者4000多人,而像WWC這樣的行業標準已經形成——傳統的教育數據領域氣象格局已成,很難撼動其已有的方法論與評價體系。
數據量與分析手段也必然走向鳥槍換炮。傳統數據中,一個學生讀完9年制義務教育產生的可供分析的量化數據基本不會超過10kb,包括個人與家庭基本信息,學校與教師相關信息,各門各科的考試成績,身高體重等生理數據,圖書館與體育館的使用記錄,醫療信息與保險信息等,以及其他類別的評估數據。這樣的數據量,一臺較高配置的普通家庭電腦,初級的EXCEL或SPSS軟件就能進行5000名以下學生量的統計分析工作;而雙核處理器,ACESS,SurveyCraft等軟件的配置足以完成整個區域的高級統計運算。這樣的工作一般只需要中級水平的教育與心理統計知識,一套可供按部就班進行對照處理的數據分析模版,以及經過兩三個月的操作培訓就能基本勝任。
而大數據的分析則完全是另一種層面的技術。根據美國著名的課堂觀察應用軟件開發商Classroom Observer的研究,在一節40分鐘的普通中學課堂中一個學生所產生的全息數據約有5-6GB,而其中可歸類、標簽、并進行分析的量化數據約有50-60MB,這相當于他在傳統數據領域中積累5000年的數據總和。而要處理這些數據,需要運用云計算技術,并且需要采用Matlab,Mathematica,Maple等軟件進行處理并進行數據可視化。而能夠處理這些數據的專業人才一般來自數學或計算機工程領域,需要極強的專業知識與培訓,而更為難能可貴的是,大數據挖掘并沒有一定的方法,更多需要依靠挖掘者的天賦與靈感。
大數據與傳統數據最本質的區別體現在采集來源以及應用方向上。傳統數據的整理方式更能夠凸顯的群體水平——學生整體的學業水平,身體發育與體質狀況,社會性情緒及適應性的發展,對學校的滿意度等等。這些數據不可能,也沒有必要進行實時地采集,而是在周期性、階段性的評估中獲得。傳統數據反應的是教育的因變量水平,即學生的學科學習狀況如何,生理健康與心理健康狀態如何,對學校的主觀感受如何等問題。這些數據,完全是在學生知情的情況下獲得的,帶有很強的刻意性和壓迫性——主要會通過考試或量表調查等形式進行——因此也會給學生帶來很大的壓力。
而大數據有能力去關注每一個個體學生的微觀表現——他在什么時候翻開書,在聽到什么話的時候微笑點頭,在一道題上逗留了多久,在不同學科課堂上開小差的次數分別為多少,會向多少同班同學發起主動交流?這些數據對其他個體都沒有意義,是高度個性化表現特征的體現。同時,這些數據的產生完全是過程性的:課堂的過程,作業的過程,師生或生生的互動過程之中……在每時每刻發生的動作與現象中產生。這些數據的整合能夠詮釋教育微觀改革中自變量的水平:課堂應該如何變革才符合學生心理特點?課程是否吸引學生?怎樣的師生互動方式受到歡迎?……而最最有價值的是,這些數據完全是在學生不自知的情況下被觀察、收集的,只需要一定的觀測技術與設備的輔助,而不影響學生任何的日常學習與生活,因此它的采集也非常的自然、真實。
所以,綜合以上的觀點,我們不難發現,在教育領域中,傳統數據與大數據呈現出以下區別:
1、傳統數據詮釋宏觀、整體的教育狀況,用于影響教育政策決策;大數據可以分析微觀、個體的學生與課堂狀況,用于調整教育行為與實現個性化教育。
2、傳統數據挖掘方式,采集方法,內容分類,采信標準等都已存在既有規則,方法論完整;大數據挖掘為新鮮事物,還沒有形成清晰的方法、路徑、以及評判標準。
3、傳統數據來源于階段性的,針對性的評估,其采樣過程可能有系統誤差;大數據來源于過程性的,即時性的行為與現象記錄,第三方、技術型的觀察采樣的方式誤差較小。
4、傳統數據分析所需要的人才、專業技能以及設施設備都較為普通,易獲得;大數據挖掘需要的人才,專業技能以及設施設備要求較高,并且從業者需要有創新意識與挖掘數據的靈感而不是按部就班者,這樣的人才十分稀缺。
2013年初,淘寶給每位商家制作了一張2012年年度消費賬單,有趣的分析背后是隱藏電子商務對每個客戶的深刻理解
二、大數據時代潛藏的教育危機
“不得不承認,對于學生,我們知道得太少”——這是卡耐基·梅隆大學(Carnegie Mellon University)教育學院研究介紹中的一句自白,也同樣是美國十大教育類年會中出鏡率最高的核心議題。這種對于學生認識的匱乏,在21世紀之前長達數百甚至上千年的教育史中并沒有產生什么消極的效應,但卻在信息技術革命后的近十年來成為教育發展的致命痼疾。
“過去,對于學生來說,到學校上學學習知識具有無可辯駁的重要性,而那是因為當時人們能夠接觸知識的渠道太少,離開學校就無法獲取成體系的知識”斯坦福大學教授Arnetha Ball在AERA(美國教育研究會)大會主旨發言中說道,“但是,互聯網的普及將學校的地位從神壇上拉了下來?!盉all的擔心不無道理。根據Kids Count Census Data Online發布的數據,2012年全美在家上學(Home-Schooling)的5-17歲學生已達到197萬人,相對逐年價下降的出生人口,這一人口比重十分可觀。
與此同時,應運而生的則是內容越來越精致的網上課堂,而創立于2009年并迅速風靡全球的可汗學院(Khan Academy)正是其中的杰出代表。從知名學府的公開課到可汗學院,這種網絡學習模式受到熱捧恰恰證明了:人們對于學習的熱情并沒有過去,但是人們已經極端希望與傳統的學院式授課模式告別。一成不變,甚至“目中無人”的傳統集體教學模式在適應越來越多元化、也越來越追求個性化的學生群體時顯得捉襟見肘。
可汗學院模式不但支持學生自主選擇感興趣的內容,還可以快速跳轉到自己適合的難度,從而提高了學習的效率。學習者沒有學習的壓力,時長、時機、場合、回顧遍數都可以由自己控制。
可以想象,如果可汗學院的模式進一步發展,與計算機自適應(CAT)的評估系統相聯系,讓使用者可以通過自我評估實現對學習進度的掌握以及學習資料的精準獲取,那么它將形成互聯網產品的“閉環”,其優勢與力量將是顛覆性的。
而如果傳統教育的課程模式不革新,課堂形態不脫胎換骨,教師角色與意識不蛻變,那么學校的存在就只有對現代化學習資源匱乏的學生才有意義;而對于能夠自主獲得更適宜學習資源的學生來說,去學??赡苤皇菫榱送瓿梢豁椛鐣巧x予的義務,甚至談不上必要性,也就更談不上愉快的體驗或興趣的驅使了。
大數據的研究可以幫助教育研究者重新審視學生的需求,通過高新的技術以及細致的分析找到怎樣的課程、課堂、教師是能夠吸引學生的。但問題在于,社會發展給予教育研究者的時間窗口并不寬裕,因為有太多人同樣在試圖通過大數據挖掘設法瓜分學生們有限的精力與注意力。而且從某種程度上,他們做得遠比教育研究者更有動力與誠意。
首當其沖的是游戲的設計者——青少年是其主要消費群體。撇開馳名世界的暴雪公司(Blizzard Entertainment),美國藝電公司(Electronic Arts Inc.),日本任天堂公司(Nintendo)等國際巨鱷不談;即使是國內的盛大網絡,第九城市,巨人科技,淘米網絡等游戲公司,亦都早已組建了專業實力強勁的“用戶體驗”研究團隊。他們會通過眼動跟蹤,心律跟蹤,血壓跟蹤,鍵盤與鼠標微操作速率等各種微觀行為來研究如何讓玩家在游戲中投入更多的時間,更加愿意花真實世界的錢來購買虛擬世界的物品。什么時候應該安排敵人出現,敵人應當是什么級別,主人公需要耗費多少精力才能夠將其擊敗,這些變量都得到了嚴格的設計與控制,原因只有一個——大數據告訴游戲創作者,這樣的設計是最能夠吸引玩家持續游戲的。
其次是電影視頻、青春小說等鏈式文化產業。為什么在網站上看視頻會一個接一個,無法停止,因為它會根據該賬號的歷史瀏覽記錄推算出其喜歡看什么樣的視頻,喜歡聽什么類型風格的歌,并投其所好;而暢銷網絡小說看似并沒有“營養”,但里面的遣詞造句、語段字數,故事起伏設定,甚至主人公性格的類型都是有相關研究進行支持——讀者往往并不喜歡結構嚴密、精心設計的劇情——這就是為什么情節千篇一律的韓劇受人追捧的原因,他們通過收視率的反復研究,挖掘到了觀眾最需要的那些元素,并且屢試不爽。
此外還有許多更強大的研究者,比如電子商務,總能通過數據找到你可能愿意購買的商品——他們甚至知道買尿片的父親更愿意買啤酒。
這些領域看似與我們教育者并無特別關聯,但是他們與我們最關心的對象——學生卻有著千絲萬縷的聯系。數百年甚至數十年前,學生并不會面對如此多的誘惑,學校在其生活中占據極大比重,對其影響也最為顯著,因此教育者對于學生的控制總是有著充分的自信。但是,當不同的社會機構與產品開始爭奪學生的注意力時,教育者的自信就只能被認為是一種無法認清形勢的傲慢了——因為在這場“學生爭奪戰”中,傳統學??瓷先嵲谌狈Ω偁幜?。
即使教育研究者愿意放下身段,通過大數據的幫助來悉心研究學生的需求與個性。但是人才的匱乏也是非常不利的一點因素——相比于商業環境下對研究實效的追逐,教育研究的緩慢與空洞顯得相形見絀。在互聯網企業紛紛拋出“首席數據官”的頭銜,向各種數據科學狂人拋出橄欖枝,并且在風險投資的鼓舞下,動輒以百萬年薪進行延聘時,大數據研究的前沿陣地必然仍是在互聯網行業中最轟轟烈烈地開戰。
分析形勢后的姿態,以及投入的力度與強度,或許是教育領域在進入大數據研究時最先需要充分考慮的兩個先決條件。
三、誰在為大數據歡呼:一場關于“人性”研究的啟蒙
孜孜不倦地觀測、記錄、挖掘海量的數據,有朝一日終會推導出或簡約或繁復的方程,以此得以在自然科學的歷史豐碑上留名——數百年來,這種對數據的崇拜早已成為了物理學家、化學家、生物學家、天文地理學家們的信念。而牛頓,貝葉斯,薛定諤等一代代巨匠的偉業也揭示了數據對于科學發現的無限重要價值。
相形之下,社會科學領域的研究就要慘淡地多——他們同樣看重數據,同樣追求統計與分析的“程序正義”,同樣勤勤懇懇地設計實驗與調研,去尋找成千上萬的被試,同樣像模像樣地去嵌套方程……但是幾乎很少有研究結果能夠得到普遍的承認,不管是社會學、心理學、經濟學、管理學還是教育學。
當然,社會科學領域的研究者們遇到的困難是顯而易見的:“人性”與“物性”是不同的,物質世界比較穩定,容易尋找規律;而由人組成的社會極其善變,難以總結。從數據的角度來說,人的數據不如物的數據那么可靠:
首先是人不會像物那樣忠實地進行回應:誰知道一個人填寫的問卷有多少是注意力不集中填錯的、語文水平不高理解錯的、還是壓根沒打算講真話?此外,人與人本身的差距也大于物與物的差距:兩個化學組成相同的物質表現出各種性質幾乎是完全一樣的,但即使是兩個基因完全相同的雙胞胎也會因為不同的人生經驗,而表現出大相徑庭的行為特征。
但這些都還并不關鍵,最最重要的是:人無法被反復研究。人不是牛頓的木塊,不是伽利略的鉛球,不是巴普洛夫的狼狗,人不會配合一次次從斜坡上被滑下來,一次次從比薩塔頂被扔下來,一次次流著口水干等著送肉來的鈴聲。而我們知道,在“科學”的三個標準中,首當其沖的就是“可重復驗證”。
換句話說,我們可以獲得的關于“人性”的數據不夠大,不夠多,不夠隨時隨地,因此我們無法從數據中窺見人性。2002年諾貝爾經濟學獎授予心理學家丹尼爾?卡尼曼(Daniel Kahneman)時,似乎標示著社會科學領域已經接受了這樣一種事實:人類的行為是無法尋找規律、無法預測、難以進行科學度量的。社會科學開始懷疑用純粹理性的方法是否可以解答關于“人性”的種種現象。與此相映成趣的是2012年的美國大選,奧巴馬的團隊依靠對網絡數據的精準篩選捕捉到了大量的“草根”選民,而對于其喜好與需求的分析與把握更是贏得其信任,從而在不被傳統民調與歷史數據規律看好的情況下一舉勝出。這跨越十年的兩個標志性事件讓人們對于“數據揭示人性”可能性的認識經歷了戲劇性的轉變。
如今,迅速普及的互聯網與移動互聯網悄然為記錄人的行為數據提供了最為便利、持久的載體。手機,iPad等貼近人的終端無時不刻不在記錄關于人的點點滴滴思考、決策與行為。最最重要的是,在這些強大的數據收集終端面前,人們沒有掩飾的意圖,人們完整地呈現著自己的各種經歷,人們不厭其煩一遍又一遍重復著他們不愿在實驗情境下表現出來的行為,從而創造著海量的數據——傳統數據研究無法做到的事,傳統研究范式苦苦糾結的許多難點,都在大數據到來的那一剎那遁于無形。
大數據的到來,讓所有社會科學領域能夠藉由前沿技術的發展從宏觀群體走向微觀個體,讓跟蹤每一個人的數據成為了可能,從而讓研究“人性”成為了可能。而對于教育研究者來說,我們比任何時候都更接近發現真正的學生。本文來源:CDA數據分析師官網
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25