
提起大數據,相信大多數人并不陌生,但對于大數據的有效應用大家更多的是處在摸索和嘗試階段。特別是一些中小企業往往把大數據建設想象得過于龐大,而對大數據望而卻步。這種假象這很大程度掩蓋了中小企業依靠數據來挖掘市場潛力的機會。
圖1 大數據在百度遷徙圖上的應用
大數據拓展企業的商業機遇
根據IDC研究,2012年全球使用了超過2.8兆GB的數據,然而只有1%數據中的一般進行了有意義的分析。但這微不足道的比例,也足以讓大家注意到大數據的重要性和潛力。事實證明,大數據的迅速增長及相關技術的發展正在給企業帶來全新的商業機遇。
據《麻省理工學院斯隆管理評論》和IBM商業價值研究院聯合舉行的2011年新智能企業全球高管調查和研究項目指出,絕大多數企業都已抓住了這些機遇。2011年,58%的企業已經將分析技術用于在市場或行業內創造競爭優勢,而2010年這一比例僅為37%。值得注意的是,采用分析技術的企業持續超越同行的可能性要高兩倍。
面對大數據可能帶來的商業機遇,中小企業為什么會望而卻步呢?其實這是把大數據廣義化的結果。從廣義的大數據建設來講,其涉及的技術要求、耗資成本、人力匹配等要素對一般中小企業來講存在很大的挑戰性。即使有大數據建設意愿,因為沒有成熟的系統架構理念,也使得老板們無從下手。
其實,企業的數據可以分為結構化數據、半結構化數據和非結構化數據3種類型。而其中,85%的數據屬于廣泛存在于社交網絡、物聯網、電子商務等之中的非結構化數據。這些非結構化數據的產生往往伴隨著社交網絡、移動計算和傳感器等新的渠道和技術的不斷涌現和應用。在這些數據中,僅依托社交網絡而存在的數據對企業開拓新的市場需求就是一個巨大的機遇。如果企業能夠從這些依托社交網絡的數據(如網民對某行業的議論、某種需求訴求、某產品功能吐槽、電子網站上價格、媒體上的某新產品發布會等等)中獲取新的洞察力,并將其與已知業務的各個細節相融合,挖掘用戶需求點,創新產品,這就是機遇,也是競爭力。
以房產行業為例。假如房企有效采集到論壇、微博、博客、貼吧、新聞跟帖上網關于住房話題議論數據,如民對房屋設計、小區環境、家居質量、交通情況、個人住房需求偏好以及用戶賬號的個人注冊信息等,就可以從中分類分析不同年齡段、性別、地區的客戶消費偏好、消費能力,以此為依據去了解區域市場的需求,肯定會有別樣的收獲。
大數據在挖掘市場新需求上的應用
雖然,大數據在國內應該還處在探索和嘗試階段,但是一些行業巨頭進軍大數據的步伐從未停滯。從阿里巴巴到騰訊,從無印良品到海爾和小米,他們都在通過各種不同的方式或形式投身于大數據應用中。雖然這些企業分布在不同行業,但它們都有一個共同的特點,那就是在利用互聯網思維和大數據有效地為客戶提供更符合需求的產品。
拿房地產巨頭之一的萬科來說。萬科在客戶行為數據調查中發現,移動互聯時代家里的網絡WiFi必不可少,但經常會出現每個房間WiFi信號強度有別的尷尬,因此在其樓房中統一配備了WiFi增強系統;同時,因為現在很多年輕人變得很宅,習慣在沙發上坐一整天,于是設計了“土豆位”的概念,迎合3C時代年輕人的生活習慣。而在社區配套服務上,萬科更嘗試讓業主、客戶可以在社區建設之初就參與到社區配套的設計和運營上來,引入時下最新的互聯網概念 “眾籌”,根據業主需求未來有可能實現“眾籌”健身房、超市、美容院等。
同樣,這種從網絡數據中挖掘新的市場需求的做法也適用于婚戀公司。比如,作為一家婚戀網站,百合網不僅需要經常做一些研究報告,分析注冊用戶的年齡、地域、學歷、經濟收入等數據,即便是每名注冊用戶小小的頭像照片,這背后也大有挖掘的價值。百合網研究規劃部李琦曾經對百合網上海量注冊用戶的頭像信息進行分析,發現那些受歡迎頭像照片不僅與照片主人的長相有關,同時照片上人物的表情、臉部比例、清晰度等因素也在很大程度上決定了照片主人受歡迎的程度。例如,對于女性會員,微笑的表情、直視前方的眼神和淡淡的妝容能增加自己受歡迎的概率,而那些臉部比例占照片1/2、穿著正式、眼神直視沒有多余pose的男性則更可能成為婚戀網站上的寵兒。
網絡信息數據的特點及存在形式
拋開以其他形式存在的結構化數據和半結構化數據不說,單單以基于社交及新聞媒介存在的信息數據而言,其就表現出以下三個特點。
第一,數據呈現類型繁多。拜互聯網和通信技術近年來迅猛發展所賜,如今的網絡數據類型早已不是單一的文本形式,還包括辦公文檔、文本、圖片、XML、HTML、各類報表、圖像、音頻、視頻、數字等等各種豐富的數據信息,這對對數據的抓取及處理能力提出了更高的要求。
第二,數據量巨大。大數據到底有多大?一組名為“互聯網上一天”的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當于美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當于《時代》雜志770年的文字量)。一分鐘內,微博推特上新發的數據量超過10萬;社交網絡“臉譜”的瀏覽量超過600萬……
第三,“碎片化”傳播。自媒體時代的社交媒介。沒有任何的組織目標和指導方針,它的“碎片化”信息數據傳播迎合了社會信息化的進程,反應了信息數據的時效性、即時性、反饋性。散布在世界各地的微博主隨時傳播著產品信息和評論,見證著企業各種活動,評論產品的好壞等,以一種旁觀和參與兼顧的姿態記錄對自己接觸的所有事物的認知、建議、訴求、情緒。
隨著網絡社交在線的互動性、便捷性增強,在社會化媒體進行評級、撰寫點評、博文、點贊,產生大量的非結構性數據和碎片化數據,那么這些流傳于網絡的信息數據會是以什么樣的形成存在呢?就拿上文中談到的房地產數據來說,這些數據完全可以來源于網絡房產類話題的網友議論內容,比如微博上網友在討論住房是提到的對wifi的信號的訴求;論壇上房產頻道網友住房不布置設想;貼吧上網友對住房小區配套設施的吐槽等等。這些網友的訴求、吐槽、設想信息數據分析結果,將指導產品的設計和社區配套的建設,包含戶型、景觀、住宅性能和鄰里空間等方面。
網絡大數據信息的采集和抓取
有人說,發現知識正是大數據的真正價值,僅僅存儲數據而不去挖掘內在信息并沒有意義。但是,作為發現知識的必要條件,如何獲取這些支撐我們去挖掘內在信息的數據,是企業建設大數據的基石。
Web是一個巨大的資源寶庫,目前頁面數目已超過800億,每小時還以驚人的速度增長,里面有你需要的大量有價值的信息,例如潛在客戶的列表與聯系信息,競爭產品的價格列表,實時金融新聞,供求信息,論文摘要等等??墒怯捎陉P鍵信息都是以半結構化或自由文本形式存在于大量的HTML網頁中,很難直接加以利用。
面對類型繁多、數量巨大以及碎片化的網絡信息數據,如何能對這些數據的有效、準確、全面采集是企業大數據戰略的一個重要組成部分之一。以樂思網絡信息采集系統的功能為例,系統可以根據用戶自定義的任務配置,批量而精確地抽取因特網目標網頁中的半結構化與非結構化數據,轉化為結構化的記錄,保存在本地數據庫中,用于內部使用或外網發布,快速實現外部信息的獲取。
通過自定義任務配置,實施目標網站信息自動抓取,實現HTML頁面內各種數據的采集,如文本信息,URL,數字,日期,圖片等;對每類信息自定義來源與分類;下載圖片與各類文件;對于登陸網友實現用戶名與密碼自動登錄,并可以Windows任務計劃器配合,定期抽取目標網站;智能替換去除與內容無關部分如廣告;實現多頁面,多篇、多段文章內容自動瀏覽及自動抽取與合并;實現數據直接進入數據庫而不是文件中,直接或模擬提交表單;實現所有主流數據庫:MS SQL Server, Oracle, DB2, MySQL, Sybase, Interbase, MS Access數據匹配。
廣義的大數據建設我們力不從心,但這并不能阻擋我們應用網絡大數據挖掘企業新的市場需求的步伐。通過收集企業外部信息,包括與本公司相關的信息,與競爭對手相關的信息,行業信息,價格信息,與合作伙伴相關的信息,用戶網上反饋的各種信息,科研技術信息,用戶家庭月收入、存款及還款信息,來自于零售商業、服務業的個人消費開支結構信息,從而先于行業、競爭對手鎖定客戶的需求,加快銷售節奏,實現銷售目標。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25