熱線電話:13121318867

登錄
首頁精彩閱讀大數據與市場研究-數據分析師
大數據與市場研究-數據分析師
2014-11-17
收藏

大數據與市場研究-數據分析師

大數據這個概念近來一直受到關注。大數據并非一個確切的概念,這個概念一方面指數據體量巨大,超出一般電腦所處理數據量幾個級別;另一方面也指處理的數據類型多樣化,遠遠超出傳統數據格式和分析工具能處理的范疇。也有觀點指大數據是指不用抽樣方法得到的數據。在這篇文章中,我從社會學科研究方式發展的角度來闡述大數據的影響,以及大數據和市場研究的相互關系。

第一次數據化的影響 – 定性研究和定量研究

市場研究是一門應用社會學的學科,一個基本的分類就是定性研究和定量研究。簡單地說,定量研究一定有數字分析,定性研究沒有數字分析。大多數研究人員也各自站隊為定量研究人員和定性研究人員。我們先來討論一下這樣劃分的本質是什么。

在幾乎所有社會科學的學科中,最一開始的數據都是非數字的。比如,我們去做問卷調查詢問被訪者,你家有汽車嗎?如果有,我們打一個勾。在把這些答案轉化為數據之后,我們可以計算有多少比例的被訪者有汽車等等。這個把非數字的信息數字化的過程,我們稱之為數據化。這個過程在本質上同把聲音數字化和圖像數字化的過程并沒有區別。

因此,數據的本質都是定性的。研究人員可以選擇直接處理定性數據,也可以選擇多走一步數據化后處理定量數據。沒有哪一種方法在本質上更好。事實上,兩種方式都產生了偉大的研究。(由于篇幅限制,這里不舉例說明了。)

但在現實中不容否認的是,定量研究似乎享受更高的社會地位。在西方各個社會學科定量研究發展的初期,定量研究常常和具備高級數量分析技巧的和相應工作語言的年輕博士掛鉤,定量研究被認為是未來,校園里許多年老的教授和研究者困惑不已并感受到壓力。許多大學都大力投資來支持定量研究,Departments of Government 被改名為Departments of Political Sciences, Departments of Speech 被改名為Departments of Communication, 即便名字沒改,研究的內容已經發生變化了,社會學科轉向定量研究的風潮可見一斑。那個時候年輕學者對數據的興趣和癡迷不低于今日。歸其原因,一方面由于測量理論的發展,許多研究主體數據化,定量研究從科學發展的浪潮中受益了;另一方面電腦的發展也促成了這個變化。

當電腦開始在美國大學變得不那么神秘的60年代初期,它們是不適合社會科學研究的,電腦的應用是圍繞著物理科學來進行的。物理科學通常要求在很小的數據量上進行非常復雜的運算,而社會科學通常的數據量很“大”。那個時候物理科學可以拿到很多的資助,所以大部分軟件和程序都是圍繞物理科學開發的。直到60年代末期才出現比較強大的為社會科學研究而設計的分析軟件。

70年代末的個人計算機的出現讓社會科學定量研究看到了普及的希望。微型化的、能支付的起的電腦已經足夠強大,可以做很多常規分析,但是它們不能處理“大”數據。碰到大的數據樣本,只能手動的去計算,直到八十年代的微型電腦內存技術有了革命性的變化。新型電腦不僅能進行大樣本的簡單處理和分析,而且能進行復雜的運算,比如因子分析,最小空間分析等等。一個定量研究者和一臺微型電腦所做的分析,就能輕易超過以前一個團隊和一個機房才能做的分析。

于是,微型電腦給定量研究帶來了我們所能看見的明顯優勢。然而,微型電腦給定性研究也帶來了同樣的優勢,只是我們不太注意罷了。比如,以前我們做定性研究訪問的時候,一般就是記筆記?,F在我可以帶著我的個人電腦現場記錄,也可以輕松地剪輯錄像仔細解讀。當我們寫定性報告的時候,現在可以很輕松的檢索信息,旁引博證,插入圖片等,還可以輕松的把文字和其它信息挪動?;ヂ摼W也使得遠程圖書館發展起來,對定性研究的幫助也是一日千里。

你或許覺得電腦在定性研究上的應用比起定量研究來太蒼白了,但是我們仔細想一想,電腦對定量研究的貢獻不也是讓研究者輕松地去做過去能做但很費時費力的分析工作嗎?

雖然性質相同,但定性研究和定量研究其實有自己不同的優勢和劣勢,他們完美的互補。一個好的研究人員應該對定性和定量都不陌生,當碰到實際問題的時候,應該能同時考慮定性和定量的選擇。定性和定量都需要特殊的訓練,現實中一個人精力和時間是有限的,我們也總想擅長點什么,所以偏向定性或定量就順理成章了。但我們必須警惕專業化中潛伏的危險:定量人員會經常把統計分析的表面結果當成一切,定性人員也會經常把觀點當成觀察,把感覺當成發現。

時間已經證明,定性方法并沒有被淹沒在數據化的浪潮中。相反,定性方法和定量方法在生活中處處體現,他們或者平行或者交叉,不可分離。我們可以用數字形容汽車的速度,但不能用數字描述一個孩子的可愛。另一方面,我們知道一個人的捐贈大小是不足以測量一個人善心的,但是他們之間也不是沒有關系;我們知道有高度不代表你能打籃球中鋒,但沒有高度你是萬萬不行的。定性和定量,你中有我,我中有你。

如果我們把六、七十年代數據化帶給社會學科研究方法的變化 ? 定量研究和定性研究的分野和發展,看作是第一次數據化浪潮沖擊的話,那么大數據將會給社會科學研究方式帶來第二次沖擊。

大數據及其分析

如今大數據帶給我們社會科學研究者的兩難境地就如同以前數據化帶給定性研究者的兩難境地一樣。一方面,稍微一點想象,所有事物都可能轉化為數據形式,并且給我們帶來沖擊。把世間萬物轉化為數據的需求來源于人類測量、記錄和分析世界的渴望(舍恩伯格和庫克耶 2013)。另一方面,我們面對大數據,卻缺少分析大數據的思路、方法、甚至工具。所以不奇怪的是現在的很多社會學科研究者采取抽樣的方式來分析大數據。

過去定量研究的一個關鍵支柱是抽樣理論。過去由于獲得數據的昂貴,我們傾向于用最少的數據量獲得最多的信息,抽樣省時省力省錢;而且由于技術分析手段的局限性,我們也只能處理分析“小數據”。那如何保證抽樣的結果能比較客觀的代表總體呢?依據所研究的問題,滿足隨機抽樣(經典抽樣)或最優抽樣的標準,就能最大限度的保證精確性。抽樣理論實際上獲得了巨大成功,成為現代社會、現代測量領域的支柱。

抽樣數據相比全體數據是在不可收集和分析全部數據的情況下的選擇。在數據成本越來越低的時代,促使我們來使用樣本數據的經濟原因已經被撼動。另外,樣本數據的成功取決于抽樣的隨機性,但在抽樣的實際工作中保證隨機性是非常困難的。我們市場研究的同事都知道,當前無論采用什么方法做抽樣,比如電話,入戶,街頭攔截等等,有一系列的操作上的障礙使你無法保證樣本的隨機性。祝建華教授在一次討論中提到,如果抽樣的對象很復雜,比如“網絡”,那么根本找不到一個最優抽樣的判斷標準,更不可能奢求以抽樣求得的小網絡能反映大網絡的情況。

另一個我們不主張使用樣本數據來研究大數據的理由是,樣本數據會給我們的分析方法帶來困惑和障礙。舉個例子,我們做回歸分析的時候,變量之間的多元共線性是一個嚴重干擾我們估計Beta的因素。但是當樣本擴大到非常大的時候,這個影響趨于零。這一點無論是通過模擬數據還是真實數據都得到了驗證。我們有文章在AMA的會議上發表。

樣本數據一旦收集完成,它的應用就相應的缺乏延展性。比如,我們難以或者不可以重新分析這些數據以驗證計劃之外的想法;當我們的分析單位越來越小的時候,樣本數據的錯誤率變得越來越高,因為落到一個分析單位上的樣本量越來越??;樣本數據常常不能幫助我們完成對異?;蛐「怕适录姆治?,而發現和預測這些小概率事件常常是數據分析的一個重要目的。

那么,大數據研究的目的是什么呢? 通常在社會科學領域中,我們的研究目的是發現和驗證事物之間的因果關系,然而發現和分析因果關系是非常困難的一項任務。例如一個14歲的初中學生跳樓了,是什么原因導致他這種行為呢?媒體對其他青少年相似行為的報導?社會大環境所致?學校功課的壓力?家庭不和睦?個人心理狀態?和同學吵架之后的過激念頭導致?……我們可以列出上百種可能的因素,因為社會現象之復雜,各種事物之間確實有存在著千絲萬縷的聯系。我們當然很容易說這些因素都有可能是原因,也可以簡而化之說學校壓力是主因,但這些表述對我們沒有任何價值。

因果關系的成立是有一系列嚴格條件的。在各社會學科研究中,我們通常從建立假設開始,然后進行實驗設計和抽樣,通過對比檢驗,這個假設或者成立或者被推翻。所建立的假設通常來源于定性研究、理論、其它研究或者靈感。即便假設成立,因為抽樣的原因和其它因素,也要明確其適用范圍,整個過程費時費力。美國著名社會學家厄爾?芭比博士曾經指出,社會科學研究結果的最佳表述方式是概率,是相關關系,而非因果關系。這一點與舍恩伯格在《大數據時代》中提倡的“轉向相關關系”分析有異曲同工之妙。

舍恩伯格提倡在大數據的分析中,人們應該從對于因果關系的追求中解脫出來,轉而將注意力放在相關關系的發現和使用上來。只要發現了事物之間的相關關系,那么就已經能產生巨大的經濟和社會效益。他通過實際的案例說明,大數據和相關分析的結合已經產生了許多巨大的發現,并且由于數據大,能夠令我們更有機會發現有價值的局部相關關系。

在小樣本時代,數據稀缺,所以我們首先追求數據精確,其次追求結果精確。但大數據時代,數據之雜,不可能精確,追求數據的精確就會導致我們寸步難行,數據不精確會成為一個常態,也是世界的本質。數據不精確,結果也很難“精確”。但機器學習理論和實踐都證明,允許數據的混雜和不精確,我們分析所得出的結論才更有延展性和外部適用性。

因為大數據中很大比例是文本數據,分析的很大障礙是機器的語義分析能力。只有具備了一定的語義分析能力,機器分析才有價值,文本形式的大數據才能得到有效分析。目前的大多數語義分析能力都是采用有監督機器學習。機器學習包括訓練集的質量,訓練集規模和機器學習算法,訓練集的質量是可以采用人工標注的方式來提高。此外,對市場研究而言,品類知識也是需要機器事先儲備的。

可以想象,未來云計算和云儲存的普及,大數據分析方法的發展以及針對大數據的智能軟件的開發,將會為個人處理分析大數據提供必要的物質條件,就如同七、八十年代微型計算機、內存和相應軟件的開發會為定量研究帶來的變化一樣。

大數據時代傳統市場研究的價值

大數據帶來的數據化浪潮已經觸動市場研究的每一個人。Joan Lewis,寶潔全球客戶和市場知識官, 2011年ARF的演講中呼吁要讓社會化媒體的大數據應用于市場研究。她講到了以下幾點:

  •  數據的豐富性和自主性      社會化媒體數據包含了消費者的購買習慣,用戶需求,品牌偏好等,且都是消費者自愿表述的對產品滿意度和質量問題的想法,充滿了情感因素,我們無需費盡心思的引導消費者參與調查問卷
  •  減少研究的“未知”視角 市場問卷調查有其固有的局限性,那就是你必須明確你的問題是什么。問卷設計者本身有未知的方面,所以在設計問題時會忽略自己的“未知”,但這些“未知”很有可能就是消費者所需要的方面
  • 數據的實時化的特征 不同于以往的發放回收市場調研報告再解決消費者問題,如今可以使營銷人員快速發起營銷活動,第一時間測試營銷新方法,同時可以第一時間確認理解和追蹤消費者的反饋
  • 數據的低投入特征     傳統的市場調研方式費工費時,結合社會化媒體的市場調研則是低投入高回報的產業。使用正確的調研產品和方法便可以對消費者群體的用戶習慣和反饋進行透徹分析。運用社會化媒體監測軟件幫助企業在線傾聽消費者意見,評估獲取其見解。

市場研究的使命是揭示消費者視角,為企業提供有價值的洞察和支持企業做出有意義的決策。從這個意義上來說,每一個市場研究人員都應該為社會化媒體平臺和數據歡呼,因為它彌補了問卷數據一些方面的不足。(你是不是經常會發現,當我們從事另一個領域的工作時,才會意識到原來工作方法的不足和優點。)另一方面,針對社會化媒體數據分析的新興公司確實對傳統的市場研究公司形成競爭和挑戰。

競爭的最大壓力是傳統的市場研究還沒有適應社會化媒體大數據時代的研究體系。正如Joe Tripodi (可口可樂營銷副總裁)在《哈佛商業評論》(2011年4月)上指出的,“在印象時代,通過問卷詢問方式獲取的知名度,使用率,認知度等衡量品牌健康的指標體系,在消費者表達的時代就未必適用。因此,從品牌建設效果衡量的角度,也需要一套適應消費者表達時代的指標體系?!蓖瑫r,盡管對大數據的整合與分析才剛剛起步,但已經有了一系列令人耳目一新的發現和應用。無數的案例和論著都指出,大數據的整合和分析,其前景和應用不可限量。

傳統的市場研究的價值在哪里?或者說,其應該堅守什么才更有價值?

  • 堅持深度    堅持基于人類本性的研究框架(陳富國,MetaThink的CEO,2012在CMRA會議上的演講)。人的行為和態度歸根結底是人的本性來決定的,堅持對人類本性的研究才能更好的幫助我們深度理解人類行為模式,以及動察人類行為的變遷。加強對生活本質、生活價值和生命認知的理解,加強對于“意義、“需要”、“體驗”和“情感”等等人類內部語言和圖式的挖掘。機器不但缺乏“體驗”和“情感”,而且缺乏對“意義”和“需要”的理解。由于人類本身具有的抽象思維和語言文本分析能力,正能達到我們在此一領域所需要的深度。
  • 堅持廣度 堅持人與自然,人與社會的研究廣度。人類的行為模式是在與自然環境和社會環境的互動中演進的,演進的過程復雜而又有趣。加強對于“個人與群體”,“群體與群體”等等社會群體內部形式和意義的挖掘?;ヂ摼W已經深刻地改變了人類的群體構成方式(Hayes 2010),而對其意義的思考和挖掘才剛剛起步。
  • 堅持實驗設計  實驗設計的本質是“控制”。在半人工的環境里我們控制一些因素來測試這些因素的影響和結果,這種研究常被用來探究營銷和產品元素的影響。這種方法直接,且非常有效果。例如基于實驗設計的聯合分析,具有堅實的科學依據,它主要以實驗設計科學和數學心理學為基礎。到目前為止,聯合分析已經發展成為一種含有多種方法的體系,并改變了許多企業的新產品開發過程和市場戰略。許多出色的產品,比如麥斯威爾咖啡,拍寶面醬,Courtyard酒店等等,都是聯合分析的產出。除此之外,聯合分析方法在統計學上的嚴謹性和靈活性也受到其它領域從業人員和學者的關注,并被大量應用于交通研究、政府政策、醫學、經濟學以及政治科學等領域。
  •  堅持模型化  模型,簡單的說,就是一種事物之間聯系和運作的方式。開發模型(探索事物之間的聯系和運作方式)是一個非常艱苦的過程,但一旦模型成立,卻能極大的簡化人們的思維和決策過程。營銷人員在繁雜的運作中,需要找到營銷元素之間的關聯,市場研究要堅持能立足于這一點。
  • 堅持發展測量工具 市場研究本質就是測量,但測量需要測量工具和方法。營銷在目前有許多相對抽象的概念,沒有對這些概念以及概念之間關系的測量,就沒有營銷大的發展,比如品牌資產,購買意向等等。

堅持這些原則和方法并不排斥社會化媒體和大數據。恰恰相反,社會化媒體為我們提供了觀察和理解消費者互聯網生活的平臺,畢竟互聯網已經成為年輕消費者生活的一個重要組成部分。大數據的分析可能會把許多以前看似不相關的變量聯系起來,這種聯系會為我們更好的洞察消費者提供線索和引領,也會為我們開發數理模型提供更多的變量和思路。

結束語

回顧歷史,我們意識到第一次數據化(“大”數據)浪潮帶給社會科學研究方式的影響和變化;思考現在,我們充分理解大數據(第二次數據化)浪潮帶給我們社會科學研究者的困惑、迷茫和不解,伴隨著震撼、驚喜和歡呼;展望未來,我們深信市場研究正處在量變通往質變的道路上。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢