熱線電話:13121318867

登錄
首頁精彩閱讀機器學習處理問題如何選擇一個合適的算法?
機器學習處理問題如何選擇一個合適的算法?
2019-03-06
收藏


我們在進行數據分析或者數據挖掘工作的時候,總會遇到很多的問題,而解決這些問題的方式有很多。如果需要我們用機器學習來處理,那么就需要我們根據算法去選擇一個合適的算法。但問題是,用機器學習處理問題,該如何選擇一個合適的算法呢?下面我們就給大家介紹一下選擇算法的流程,希望這篇文章能夠更好地幫助大家理解機器學習。


選擇算法是一個比較麻煩的事情,但是并不是不能選擇,選擇就需要我們十分細心,這樣我們才能夠選擇出一個合適的算法,以便于我們更好的處理問題。選擇算法首先需要分析業務需求或者場景,這一步完成以后,就需要我們初探數據,看看自己是否需要預測目標值,如果需要的話,那么就使用監督學習,當然,使用監督學習的時候,如果發現了目標變量,如果是離散型,那么就使用分類算法,如果是連續型,那么就使用回歸算法。當然,如果我們發現不需要預測目標值,那么就使用無監督學習,具體使用的算法就是K-均值算法、分層聚類算法等其他算法。


當我們充分了解數據及其特性,有助于我們更有效地選擇機器學習算法。采用以上步驟在一定程度上可以縮小算法的選擇范圍,使我們少走些彎路,但在具體選擇哪種算法方面,一般并不存在最好的算法或者可以給出最好結果的算法,在實際做項目的過程中,這個過程往往需要多次嘗試,有時還要嘗試不同算法。但是對于初學者,還是根據上面選擇算法的方式選擇算法為好。


說完了選擇算法的步驟,下面我們就說一下spark機器學習方面的優勢,在大數據上進行機器學習,需要處理全量數據并進行大量的迭代計算,這要求機器學習平臺具備強大的處理能力。Spark與Hadoop兼容,它立足于內存計算,天然的適應于迭代式計算,Spark是一個大數據計算平臺,在這個平臺上,有我SQL式操作組件Spark SQL;功能強大、性能優良的機器學習庫Spark MLlib;還有圖像處理的Spark Graphx及用于流式處理的Spark Streaming等,其優勢十分明顯。


優勢一:在完整的大數據生態系統中,有我們熟悉的SQL式操作組件Spark SQL,還有功能強大、性能優良的機器學習庫、圖像計算及用于流式處理等算法。


優勢二:在高性能的大數據計算平臺中,由于數據被加載到集群主機的分布式內存中。數據可以被快速的轉換迭代,并緩存后續的頻繁訪問需求?;趦却孢\算,Spark可以比Hadoop快100倍,在磁盤中運算也比hadoop快10倍左右。


優勢三:這個算法能夠與Hadoop、Hive、HBase等無縫連接:Spark可以直接訪問Hadoop、Hive、Hbase等的數據,同時也可使用Hadoop的資源管理器。


在這篇文章中我們給大家介紹了機器學習處理問題如何選擇一個合適的算法以及spark算法的優勢的內容,通過這篇文章相信大家已經找到了使用機器學習解決數據分析以及數據挖掘問題的方法了吧?希望這篇文章能夠幫助到大家。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢