
大數據與市場研究-數據分析師
大數據這個概念近來一直受到關注。大數據并非一個確切的概念,這個概念一方面指數據體量巨大,超出一般電腦所處理數據量幾個級別;另一方面也指處理的數據類型多樣化,遠遠超出傳統數據格式和分析工具能處理的范疇。也有觀點指大數據是指不用抽樣方法得到的數據。在這篇文章中,我從社會學科研究方式發展的角度來闡述大數據的影響,以及大數據和市場研究的相互關系。
市場研究是一門應用社會學的學科,一個基本的分類就是定性研究和定量研究。簡單地說,定量研究一定有數字分析,定性研究沒有數字分析。大多數研究人員也各自站隊為定量研究人員和定性研究人員。我們先來討論一下這樣劃分的本質是什么。
在幾乎所有社會科學的學科中,最一開始的數據都是非數字的。比如,我們去做問卷調查詢問被訪者,你家有汽車嗎?如果有,我們打一個勾。在把這些答案轉化為數據之后,我們可以計算有多少比例的被訪者有汽車等等。這個把非數字的信息數字化的過程,我們稱之為數據化。這個過程在本質上同把聲音數字化和圖像數字化的過程并沒有區別。
因此,數據的本質都是定性的。研究人員可以選擇直接處理定性數據,也可以選擇多走一步數據化后處理定量數據。沒有哪一種方法在本質上更好。事實上,兩種方式都產生了偉大的研究。(由于篇幅限制,這里不舉例說明了。)
但在現實中不容否認的是,定量研究似乎享受更高的社會地位。在西方各個社會學科定量研究發展的初期,定量研究常常和具備高級數量分析技巧的和相應工作語言的年輕博士掛鉤,定量研究被認為是未來,校園里許多年老的教授和研究者困惑不已并感受到壓力。許多大學都大力投資來支持定量研究,Departments of Government 被改名為Departments of Political Sciences, Departments of Speech 被改名為Departments of Communication, 即便名字沒改,研究的內容已經發生變化了,社會學科轉向定量研究的風潮可見一斑。那個時候年輕學者對數據的興趣和癡迷不低于今日。歸其原因,一方面由于測量理論的發展,許多研究主體數據化,定量研究從科學發展的浪潮中受益了;另一方面電腦的發展也促成了這個變化。
當電腦開始在美國大學變得不那么神秘的60年代初期,它們是不適合社會科學研究的,電腦的應用是圍繞著物理科學來進行的。物理科學通常要求在很小的數據量上進行非常復雜的運算,而社會科學通常的數據量很“大”。那個時候物理科學可以拿到很多的資助,所以大部分軟件和程序都是圍繞物理科學開發的。直到60年代末期才出現比較強大的為社會科學研究而設計的分析軟件。
70年代末的個人計算機的出現讓社會科學定量研究看到了普及的希望。微型化的、能支付的起的電腦已經足夠強大,可以做很多常規分析,但是它們不能處理“大”數據。碰到大的數據樣本,只能手動的去計算,直到八十年代的微型電腦內存技術有了革命性的變化。新型電腦不僅能進行大樣本的簡單處理和分析,而且能進行復雜的運算,比如因子分析,最小空間分析等等。一個定量研究者和一臺微型電腦所做的分析,就能輕易超過以前一個團隊和一個機房才能做的分析。
于是,微型電腦給定量研究帶來了我們所能看見的明顯優勢。然而,微型電腦給定性研究也帶來了同樣的優勢,只是我們不太注意罷了。比如,以前我們做定性研究訪問的時候,一般就是記筆記?,F在我可以帶著我的個人電腦現場記錄,也可以輕松地剪輯錄像仔細解讀。當我們寫定性報告的時候,現在可以很輕松的檢索信息,旁引博證,插入圖片等,還可以輕松的把文字和其它信息挪動?;ヂ摼W也使得遠程圖書館發展起來,對定性研究的幫助也是一日千里。
你或許覺得電腦在定性研究上的應用比起定量研究來太蒼白了,但是我們仔細想一想,電腦對定量研究的貢獻不也是讓研究者輕松地去做過去能做但很費時費力的分析工作嗎?
雖然性質相同,但定性研究和定量研究其實有自己不同的優勢和劣勢,他們完美的互補。一個好的研究人員應該對定性和定量都不陌生,當碰到實際問題的時候,應該能同時考慮定性和定量的選擇。定性和定量都需要特殊的訓練,現實中一個人精力和時間是有限的,我們也總想擅長點什么,所以偏向定性或定量就順理成章了。但我們必須警惕專業化中潛伏的危險:定量人員會經常把統計分析的表面結果當成一切,定性人員也會經常把觀點當成觀察,把感覺當成發現。
時間已經證明,定性方法并沒有被淹沒在數據化的浪潮中。相反,定性方法和定量方法在生活中處處體現,他們或者平行或者交叉,不可分離。我們可以用數字形容汽車的速度,但不能用數字描述一個孩子的可愛。另一方面,我們知道一個人的捐贈大小是不足以測量一個人善心的,但是他們之間也不是沒有關系;我們知道有高度不代表你能打籃球中鋒,但沒有高度你是萬萬不行的。定性和定量,你中有我,我中有你。
如果我們把六、七十年代數據化帶給社會學科研究方法的變化 ? 定量研究和定性研究的分野和發展,看作是第一次數據化浪潮沖擊的話,那么大數據將會給社會科學研究方式帶來第二次沖擊。
如今大數據帶給我們社會科學研究者的兩難境地就如同以前數據化帶給定性研究者的兩難境地一樣。一方面,稍微一點想象,所有事物都可能轉化為數據形式,并且給我們帶來沖擊。把世間萬物轉化為數據的需求來源于人類測量、記錄和分析世界的渴望(舍恩伯格和庫克耶 2013)。另一方面,我們面對大數據,卻缺少分析大數據的思路、方法、甚至工具。所以不奇怪的是現在的很多社會學科研究者采取抽樣的方式來分析大數據。
過去定量研究的一個關鍵支柱是抽樣理論。過去由于獲得數據的昂貴,我們傾向于用最少的數據量獲得最多的信息,抽樣省時省力省錢;而且由于技術分析手段的局限性,我們也只能處理分析“小數據”。那如何保證抽樣的結果能比較客觀的代表總體呢?依據所研究的問題,滿足隨機抽樣(經典抽樣)或最優抽樣的標準,就能最大限度的保證精確性。抽樣理論實際上獲得了巨大成功,成為現代社會、現代測量領域的支柱。
抽樣數據相比全體數據是在不可收集和分析全部數據的情況下的選擇。在數據成本越來越低的時代,促使我們來使用樣本數據的經濟原因已經被撼動。另外,樣本數據的成功取決于抽樣的隨機性,但在抽樣的實際工作中保證隨機性是非常困難的。我們市場研究的同事都知道,當前無論采用什么方法做抽樣,比如電話,入戶,街頭攔截等等,有一系列的操作上的障礙使你無法保證樣本的隨機性。祝建華教授在一次討論中提到,如果抽樣的對象很復雜,比如“網絡”,那么根本找不到一個最優抽樣的判斷標準,更不可能奢求以抽樣求得的小網絡能反映大網絡的情況。
另一個我們不主張使用樣本數據來研究大數據的理由是,樣本數據會給我們的分析方法帶來困惑和障礙。舉個例子,我們做回歸分析的時候,變量之間的多元共線性是一個嚴重干擾我們估計Beta的因素。但是當樣本擴大到非常大的時候,這個影響趨于零。這一點無論是通過模擬數據還是真實數據都得到了驗證。我們有文章在AMA的會議上發表。
樣本數據一旦收集完成,它的應用就相應的缺乏延展性。比如,我們難以或者不可以重新分析這些數據以驗證計劃之外的想法;當我們的分析單位越來越小的時候,樣本數據的錯誤率變得越來越高,因為落到一個分析單位上的樣本量越來越??;樣本數據常常不能幫助我們完成對異?;蛐「怕适录姆治?,而發現和預測這些小概率事件常常是數據分析的一個重要目的。
那么,大數據研究的目的是什么呢? 通常在社會科學領域中,我們的研究目的是發現和驗證事物之間的因果關系,然而發現和分析因果關系是非常困難的一項任務。例如一個14歲的初中學生跳樓了,是什么原因導致他這種行為呢?媒體對其他青少年相似行為的報導?社會大環境所致?學校功課的壓力?家庭不和睦?個人心理狀態?和同學吵架之后的過激念頭導致?……我們可以列出上百種可能的因素,因為社會現象之復雜,各種事物之間確實有存在著千絲萬縷的聯系。我們當然很容易說這些因素都有可能是原因,也可以簡而化之說學校壓力是主因,但這些表述對我們沒有任何價值。
因果關系的成立是有一系列嚴格條件的。在各社會學科研究中,我們通常從建立假設開始,然后進行實驗設計和抽樣,通過對比檢驗,這個假設或者成立或者被推翻。所建立的假設通常來源于定性研究、理論、其它研究或者靈感。即便假設成立,因為抽樣的原因和其它因素,也要明確其適用范圍,整個過程費時費力。美國著名社會學家厄爾?芭比博士曾經指出,社會科學研究結果的最佳表述方式是概率,是相關關系,而非因果關系。這一點與舍恩伯格在《大數據時代》中提倡的“轉向相關關系”分析有異曲同工之妙。
舍恩伯格提倡在大數據的分析中,人們應該從對于因果關系的追求中解脫出來,轉而將注意力放在相關關系的發現和使用上來。只要發現了事物之間的相關關系,那么就已經能產生巨大的經濟和社會效益。他通過實際的案例說明,大數據和相關分析的結合已經產生了許多巨大的發現,并且由于數據大,能夠令我們更有機會發現有價值的局部相關關系。
在小樣本時代,數據稀缺,所以我們首先追求數據精確,其次追求結果精確。但大數據時代,數據之雜,不可能精確,追求數據的精確就會導致我們寸步難行,數據不精確會成為一個常態,也是世界的本質。數據不精確,結果也很難“精確”。但機器學習理論和實踐都證明,允許數據的混雜和不精確,我們分析所得出的結論才更有延展性和外部適用性。
因為大數據中很大比例是文本數據,分析的很大障礙是機器的語義分析能力。只有具備了一定的語義分析能力,機器分析才有價值,文本形式的大數據才能得到有效分析。目前的大多數語義分析能力都是采用有監督的機器學習。機器學習包括訓練集的質量,訓練集規模和機器學習算法,訓練集的質量是可以采用人工標注的方式來提高。此外,對市場研究而言,品類知識也是需要機器事先儲備的。
可以想象,未來云計算和云儲存的普及,大數據分析方法的發展以及針對大數據的智能軟件的開發,將會為個人處理分析大數據提供必要的物質條件,就如同七、八十年代微型計算機、內存和相應軟件的開發會為定量研究帶來的變化一樣。
大數據帶來的數據化浪潮已經觸動市場研究的每一個人。Joan Lewis,寶潔全球客戶和市場知識官, 2011年ARF的演講中呼吁要讓社會化媒體的大數據應用于市場研究。她講到了以下幾點:
市場研究的使命是揭示消費者視角,為企業提供有價值的洞察和支持企業做出有意義的決策。從這個意義上來說,每一個市場研究人員都應該為社會化媒體平臺和數據歡呼,因為它彌補了問卷數據一些方面的不足。(你是不是經常會發現,當我們從事另一個領域的工作時,才會意識到原來工作方法的不足和優點。)另一方面,針對社會化媒體數據分析的新興公司確實對傳統的市場研究公司形成競爭和挑戰。
競爭的最大壓力是傳統的市場研究還沒有適應社會化媒體大數據時代的研究體系。正如Joe Tripodi (可口可樂營銷副總裁)在《哈佛商業評論》(2011年4月)上指出的,“在印象時代,通過問卷詢問方式獲取的知名度,使用率,認知度等衡量品牌健康的指標體系,在消費者表達的時代就未必適用。因此,從品牌建設效果衡量的角度,也需要一套適應消費者表達時代的指標體系?!蓖瑫r,盡管對大數據的整合與分析才剛剛起步,但已經有了一系列令人耳目一新的發現和應用。無數的案例和論著都指出,大數據的整合和分析,其前景和應用不可限量。
堅持這些原則和方法并不排斥社會化媒體和大數據。恰恰相反,社會化媒體為我們提供了觀察和理解消費者互聯網生活的平臺,畢竟互聯網已經成為年輕消費者生活的一個重要組成部分。大數據的分析可能會把許多以前看似不相關的變量聯系起來,這種聯系會為我們更好的洞察消費者提供線索和引領,也會為我們開發數理模型提供更多的變量和思路。
回顧歷史,我們意識到第一次數據化(“大”數據)浪潮帶給社會科學研究方式的影響和變化;思考現在,我們充分理解大數據(第二次數據化)浪潮帶給我們社會科學研究者的困惑、迷茫和不解,伴隨著震撼、驚喜和歡呼;展望未來,我們深信市場研究正處在量變通往質變的道路上。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25