
智慧型計算在大數據分析之應用_數據分析師培訓
在數據爆炸量、多樣化以及數據更新快速的時代下,大數據分析之應用日益受到重視,在商業智慧領域也無法避免;過去所處理的數據大都是屬于結構性,亦為傳統數據庫用于協助解決商業行為的數據結構;近年來,由于數據產生的多元性,數據的產生有「4V」特性,即數據量大(Volume)、數據多樣性(Variety)、高誤差性(Veracity)、輸入和處理速度快(Velocity),尤其非結構數據(如Text, image, video等)的大量形成,強烈沖擊傳統數據庫的技術與應用;同時,因為大數據數據類別多、形成速度快,因此云端技術的支援與數據傳輸速度的充足與否,便是其能否順利運作的重要關鍵,如訂票系統、觀看影片等,當數據都上傳至云端時,除了有大量的數據存取空間外,頻寬也必需充足,才能讓使用者可及時下載所需數據。
但就因為數據產生越來越多、瞬間產生越來越快、樣式越來越大,而且有不正確性、雜訊等干擾因素存在,因此軟、硬體設備都需要升級,才能因應龐大且迅速產生的數據量。幸而Hadoop分散式并行處理系統的開發,讓數據在夠快的網路速度下可進行多個CPU的平行運算;此外,固態硬碟亦為大量數據儲存的重要硬體設備;換句話說,CPU的平行運算、固態硬碟、及網路速度,在大數據的數據處理上,叁者缺一不可。本校張百棧教授所帶領的商業智慧團隊,其核心技術就在于處理大數據下之非結構性數據,利用智慧運算(Computational Intelligence, CI)技術,對非結構性數據進行數據探勘(Data Mining),而主要應用的領域在于股價訊號判定以及心跳數據判定,尤其是在股價訊號判定部分,該團隊可進一步利用機器學習(Machine Learning)的方式進行股價預測。
智慧型計算技術應用在病例數據之判讀
張百棧教授所帶領的團隊一直以來致于推廣智慧型計算,并結合各域知(Domain Knowledge)解決同類型之問題,包括工廠排程問題、股市預測與醫療資訊叁大域。過去多年之研究在于結合四項智慧型計算技術:即探勘策、(類)經計算、演化式計算與自然計算,提出創新的Hybrid Model in Computational Intelligence (CI),用SOM (Self-Organizing Maps) 或K-means 先將資做分群,再將分群后的資找出其模煳資規則,進新的預測,所得到的正確比沒有分群高出許多。這是因為分群后的資同質性高,從而求得之模煳資規則也具有代表性。此一模型也被國際上許多學者接受與引用。
該團隊亦將此一模式進行改良,并應用于醫療領域中生理訊號處理與病例辨等問題。首先,將資以案例式推理方法分群,之后以模煳決策樹與基因演算法,分別建立子群體之模煳規則,藉此判斷是否為肝臟疾病與乳腺癌的病例,此項研究成果已發表在著名的Applied Soft Computing期刊上。近年發展出多導程心電圖之心臟疾病辨,主要著重在心電訊號的處理:先將解碼后的心電訊號除去雜訊,并進行波型取樣,再以隱藏式馬可夫模型訓練方式,找出患病與健康病例之機模型,最后結合高斯混合模型的訓練,進病例判讀。目前臺灣已有知名醫院將患者的心電圖資訊上傳至云端,讓醫師可以從智慧型裝置直接做判讀,但由于心電圖的判讀頗費心力,部份醫院會將這部分的工作外包,由具專業知識的全球人才進行心電圖的分析,然后再以機器學習演算法(Machine Learning )的方式進行病歷數據判讀與建立數據庫,這也就是大數據的應用。
分群技術與 TSK 模煳技術之股價指預測
此一團隊亦運用各種軟性計算技術,建立股價指預測之模型。其預測步驟是先將資分群,而后運用TSK 模煳技術找出影響股價指數的重要因素,再以機器學習演算法或類神經網絡分析,進臺灣加權指預測,并從中判定低點、高點的訊號,預測準確達到9成以上。目前此一預測模式僅納入兩個影響因子,分別為基本面和技術面;但如政治、經濟、心理等「大環境」因素是最難控制的,因此未來可將出現在各線上新聞網站或社群媒體等之政經新聞中的文字,經處理、過濾后轉換成影響股價波動的情感訊號,準確率將可望再提高,有助于降低投資風險,并提高投資報酬。
個股股價轉折點及潤賺取預測
圖一、方法流程圖
此一團隊另一項股市預測技術,在于個別股價投資時點之研究。先將所欲投資的個股,其近半年至一年來的股價波動訊號,從非線性轉成線性后,在高、低點時之相關技術面指標如KD、RSI、成交量等作為輸入變數(input),并將股價轉化為交易訊號(Trading signal)以作為輸出變數(output),進而從中找出具代表性的變數;之后再將篩選出的因子,輸入類神經網路中訓練,也就是Machine Learning,進而預測股價之高、低點轉折處。此部份可是股價指數預測部份之延伸,由于已可成功預測股價指,因此進一步探討如何在股票市場中賺取潤便相當重要,預測出個股價格轉折點(Turning Point),便可讓投資者能逢低買進、逢高賣出,提升投資報酬率;此部份之技術基礎在于結合線段割(Piecewise Linear Representation, PLR)系統與類經網預測(Back-propagation Neural Network, BPN)等技術,而以 PLR 作為判斷塬始資轉折點之預測工具。研究程主要分為叁個步驟:首先,為增加投資報酬,我們將提出選股塬則,并以這些塬則選出具有投資效的個股;第二步驟,用預測模型及事先交易決策分析個股買賣點,輸入變為技術指標值,輸出變為買賣時點;第叁步驟,預測每日交易訊號,以獲得最佳買賣時機點,即股價轉折點(如圖一)。
綜上所述,張百棧教授所率領的商業智慧運算團隊,除了基礎分析技術超卓外,所應用分析的領域涵蓋面極廣并切合實際應用,尤其是對于生理資訊的判定方面,對于人類社會將會有長足的貢獻,研究成果相當值得期待。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25