熱線電話:13121318867

登錄
首頁精彩閱讀關于模型優化的幾個思考
關于模型優化的幾個思考
2020-04-16
收藏


目前模型的問法優化看似進入了一個瓶頸期,在這個階段模型的同學一直在調數據跑模型,但見效甚微,大家難免會有些感到手足無措,或者沮喪,這種情況在咱們做模型的過程中肯定會經常遇到的。那么如果碰到這種情況了,我們應該如何去進一步實現我們的目標,體現我們作為算法的價值呢?我覺得有幾個點可以和大家分享下看法。

首先,定位問題。

對于算法建模來說,我們的目標不是為了找到最好的模型,最先進的模型,而是用模型加數據來構建我們對目標的認識。模型在這個過程中起到的作用是生產工具,是實現手段,是網;而數據在這個過程中是生產原料,是池塘。結合我們的優化問題,我們看到的現象是模型效果不好,那么從咱們數據和模型的角度來看,導致模型不好的原因有哪些?這個是需要我們仔細考量的。我先拋磚引玉,提幾個關于效果不好方面的問題:

a)從模型角度來說,我們當前的模型假設是什么?模型表達能力夠么?還是太復雜了?模型能夠快速迭代么?

b)從模型和數據結合來說,對結果不好的數據,為什么學不好?模型學到的是數據中的哪部分信息?模型是欠擬合還是過擬合?如果是過擬合,那么結合模型來看,我們有什么泛化調優手段,刪掉一些數據能解決不?如果是欠擬合,我們如何擴充數據?

c)從數據角度。我們的數據哪些是期望模型可以學到的?什么樣的數據,什么規模的數據,模型是可以學習的?我們對于數據的認識是什么?通過模型對數據的認識是什么?數據是均衡的么?數據是干凈的么?

其次,排優先次序。

在確定了我們的效果由不同維度的原因造成后,我們該如何做呢?一股腦亂燉?肯定不行,這里面首先要分清楚哪些對我們的目標來說影響范圍的是如何的。這個影響范圍在界定的時候一定要有一個鏈路反饋到最終結果上,這個鏈路我們得清晰。比如我們在預測結果上看到某類badcase,那么這類badcase的規模如何?



這類badcase是如何出現的,對我們的模型指標的影響是多少?如何評估?badcase是模型效果不好的直接展現,那么這個到底是由模型還是數據造成的?由模型的哪些方面影響的?由哪些數據導致的?這些得我們通過數據分析確定,最終形成我們對于效果不好這個宏觀問題的深入認識。

最后,解決方案。

作為算法建模同學,最近這兩年NLP領域發展迅猛,各種新模型百花齊放,ELMo,BERT,AlBERT等等,根本不給人喘息的機會。我相信大家在每次碰到新算法模型出現的時候是興奮的。說實話,我是既焦慮又興奮的。興奮的是學術界對于NLP的難點問題又有了新的進展,我們又有了“新鋤頭”,焦慮的是不知道自己什么時候有時間來掌握這個“新鋤頭”的用法。

但是對于新模型的嘗試在我們實際業務場景下的運用,是要結合我們的問題和目標來的。對于模型的認知咱們要有個相對的評估。學術界的模型是為了在最好的模型上再往前走,是登山,而我們是在業務場景落地,更像是修路。我們不用只要是能讓我們的業務數據價值通過充分發揮出來,就夠了。學術界的標準集是標準的,業務的標準集是一坨的。

上面說那么多,其實簡單來說,就是要多從數據出發選模型,從快速解決可解問題出發選模型。另外,在模型組合方案上,我們可以多做試錯。Boosting,Bagging,甚至強化學習,可以是單一模型,但是我們可不可以把這些思想用在我們的模型組合方案上呢?模型不是萬能的。業務落地的時候一定是在解決方案上要做些設計的。模型是對數據的抽象,規則也是的(正則也算),也是模型的一種形式。

我們本質上在用高效的工具對數據進行抽象組織的。所以對于選擇工具上可以不用局限自己。我們的核心價值在于用模型作為杠桿來撬動需要大量人力或者人力不可解的數據問題的。整體來說,模型優化是不管做什么業務問題,都會碰到的,對我們來說,我們只需要在我們的業務場景下解決業務問題就行。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢