
數據挖掘(數據分析)從業指南
請問:現在數據挖掘開發主流平臺和編程語言。那些更有優勢呢?現在大都用什么呢
問題1:現在選擇數據挖掘作為終身職業是明智之舉嗎?
問題2:如果我現在選擇了數據挖掘,應該怎么做?
問題3:如何使學習階段與行業應用靠攏?
對不同算法的性能效果進行評估比較,總結各種算法的特點及適用范圍。當然,如果能對算法做些有益的改進更好,可以讓論文的學術性更強。最后,描述出應用了關聯分析的結果能帶來什么效益(比如對貨架位置的調整、對客戶的交叉銷售等到)。
關于數據挖掘方面的研究,我原來也走過一些彎路。其實從數據挖掘的起源可以發現,它并不是一門嶄新的科學,而是綜合了統計分析、機器學習、人工智能、數據庫等諸多方面的研究成果而成,同時與專家系統、知識管理等研究方向不同的是,數據挖掘更側重于應用的層面。
因此來說,數據挖掘融合了相當多的內容,試圖全面了解所有的細節會花費很長的時間。因此我建議你的第一步是用大概三個月的時間了解數據挖掘的幾個常用技術:分類、聚類、預測、關聯分析、孤立點分析等等。這種了解是比較粗的,目標是明白這些技術是用來干什么的,典型的算法大致是怎樣的,以及在什么情況下應該選用什么樣的技術和算法。
經過初步了解之后,就要進入選題的階段,選擇自己感興趣的某個具體方向,然后通讀該方向的經典論文(綜述、主要發展方向、應用成果)。選題階段可能會花費較長的時間,比如一年。此時,要逐漸明確突破點,也就是將來你論文的創新點。創新對于研究來說非常重要,一方面該創新的確比原來的方法要好,另一方面該創新的確具有實用的價值。
隨后,就要來實現自己的想法。通常對于碩士論文來說,需要建立原型系統,進行試驗,并用試驗結果來支持自己的論文主題。原型系統就是對自己創新點的實現,需要很好地設計和開發。需要注意的是,原型系統的建立和開發商用系統不同,需要體現比較好的理論基礎。也就是說,原型系統并不是簡單地用于實現功能,而是將你的一整套理論付諸實現。這種理論基礎也將會包含在你的論文中,以體現論文的理論高度。
原型系統的搭建以及產生令人信服試驗結果,這個過程一般需要至少一年的時間。所以要集中精力于核心部分(體現論文創新點的部分),外圍的界面等等不應投入太多的精力,以免進度失控。
最后是論文的整理和寫作了。建議你在之前的階段中逐步先寫出一些篇幅較短的論文(用于發在期刊、會議上),比如綜述、體系框架、算法內核、應用等等。這樣在最后寫畢業論文時就有了足夠多的內容,會寫得更好更快一些。
以上只是泛泛而談。其實我覺得其中的關鍵點在于選題,而選題的好壞取決于你對數據挖掘研究現狀的了解、你的興趣和專長、以及該方向在應用上的意義。建議你和導師、同行多交流,能夠讓自己的方向更清晰。
至于數據挖掘領域的就業,應該來說還是前景不錯的。如果你對研究有興趣,象微軟研究院、Google、高校研究所都是不錯的地方;如果你對實際應用有興趣,很多大的公司包括IBM、Accenture、亞信等等都有相應的人力需求,當然一些甲方的單位比如證券、保險、金融等等單位也都需要分析人才。
關于論文如何創新
“創新”是個很尖銳的問題。以前我幫導師審論文時,給論文評分包括幾個要素,分別是理論基礎是否堅實、研究問題的重要性、研究成果的創新性等。
所謂創新,就是你解決問題的方法是否和其他人的解決方法有所不同,而這種不同又是否更有利于解決問題。因此,要發現創新點,實際上需要充分的準備和深入的研究。
①充分的準備:既然創新是找出解決問題的更好方法,那么首先你就要發現問題,而且要發現有價值的問題。當找到這種問題時,再去查找有沒有人提出了解決這個問題的方法,他們的方法是怎樣的,還存在什么不足之處。
這個階段需要做大量的調查搜集的工作,也是做研究的準備階段,常常需要通讀相關研究領域的經典文獻以及最新進展,寫讀書筆記予以總結。
②深入的研究:當你發現了值得研究的問題,并且知道在這個問題上還沒有很好的解決方法時,你就有了創新的機會。找出現有解決方法的不足之處,提出自己的解決思路,并予以驗證,通過試驗或者推理證明你的方法是有效的,創新點也就產生了。說起來容易做起來難,就象醞釀一個新發明一樣,常常會需要大量的試驗和周密的思考,而且也有可能忙了很久而一無所獲。
希望說到這里沒有讓你心生懼怕,但我見過的一些認真做研究的人的確投入了很多的時間和精力才有所成就。當然對于國內的研究生來說,我倒是覺得在碩士階段去追求顯著的創新是不切實際的(個人的一管之見),其實把第一步做好已經不錯了。如果沒有做好第一步,打好基礎,就急于找些創新點,那么這些所謂的創新點常常是毫無意義的,寫出來的論文最終避免不了被扔到垃圾桶的命運(我以前寫的一些論文也是如此)。大家常常說國內的研究論文質量很差,很大程度上也是源于我們現在的教育制度,要求研究生畢業前必須在SCI、EI或核心期刊上發表若干篇論文,重量而不重質,造就了現在的核心期刊完全變成了完成畢業任務的自留地。
話題扯遠了,回到你關心的問題-如何找創新點。必要的文獻閱讀是不可缺的,了解研究現狀和背景,才可能發現創新點。如果你想這個階段快一些的話,也有些捷徑,比如你可以到一些研究單位或學者的站點上,察看他們目前的研究動態,一般來說他們正在研究的內容常常是目前還未解決的,這樣你可以盡快找到創新點的主攻方向。
是不是開發數據挖掘平臺、為別的企業單位量身制作DM、DW系統?除了這些還能有些什么?
讀博深造的必要性
現在只是無指導的自學狀態,能否在碩士畢業后勝任數據挖掘方面的工作呢?考取名校的博士進一步深入學習的必要性大不大?
自學時的大方向
文本、Web等,讀博時肯定就某種具體方向深入研究,現在是否應該也自己重點專注于一種方向,而不是僅泛泛的熟悉各個方面?
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25