建模高手與初學(xué)者的差別在哪里?需要什么樣的人來建模?

我們知道,數(shù)據(jù)挖掘的基本流程包括:(1)業(yè)務(wù)理解、(2)數(shù)據(jù)理解、(3)數(shù)據(jù)準備、(4)數(shù)據(jù)預(yù)處理和建模、(5)模型評估、(6)模型部署應(yīng)用。其中第 4 步,數(shù)據(jù)預(yù)處理和建模是整個流程的核心部分,其他的步驟都是圍繞的該步驟進行的。建模高手和初學(xué)者的差距也往往在這里,建出一個模型很容易,快速高效的建出一個好的模型卻不容易。

機器學(xué)習(xí)發(fā)展到今天已經(jīng)有眾多優(yōu)秀前輩給我們貢獻了各種各種現(xiàn)成的算法包,例如在 Scikit-learn 里就提供括回歸 (Regression)、降維(Dimensionality Reduction)、分類(Classfication)、聚類(Clustering) 等方法的算法庫,使用者只需要輕松的調(diào)包操作就能跑出一個模型。但是要建出高質(zhì)量的模型,這是遠遠不夠的。數(shù)據(jù)挖掘算法和數(shù)據(jù)庫運算中用到的排序、分組算法有很大不同,后者是確定的算法,同樣的數(shù)據(jù)進來就會出同樣的結(jié)果,也沒多少參數(shù)可調(diào)。而數(shù)據(jù)挖掘算法有許多經(jīng)驗因素,同樣的數(shù)據(jù)進去,設(shè)置不同的參數(shù)來訓(xùn)練模型,結(jié)果很可能是不一樣,甚至可能差別很大。以常用的 GBDT 算法為例,需要的參數(shù)有十幾個,如下圖所示,這些參數(shù)表示什么含義,如何去設(shè)置,如何能快速找到最佳值,當模型效果不好時如何去調(diào)參, 這都需要建模師對算法原理和應(yīng)用場景有深刻的理解才能順利進行。況且算法也不是只有這一種,在建模時用哪種算法,是用一種還是多種組合用,都是建模師要需要考慮的。

比這更復(fù)雜的是,在建模之前還要做大量的預(yù)處理工作,例如對于非標準正態(tài)分布的變量,應(yīng)該如何處理;對于數(shù)據(jù)中的噪音應(yīng)該如何降噪,對于高基數(shù)變量如何處理等等。因此,建模高手和初學(xué)者的區(qū)別就在于建模高手往往具備深厚的統(tǒng)計學(xué)理論和豐富的建模調(diào)參經(jīng)驗,對數(shù)據(jù)分布,數(shù)據(jù)預(yù)處理,算法運行原理等有著深刻的理解,而初學(xué)者往往只會機械的調(diào)包計算,不懂得背后的理論知識,不清楚如何數(shù)據(jù)探索和分析,不懂得如何處理數(shù)據(jù)使數(shù)據(jù)更適合拿來建模,往往只是照貓畫虎,知其然而不止其所以然。就好像沒有學(xué)過建筑學(xué)的人拿著一堆原材料去蓋大樓,蓋出的樓能不能住人、會不會倒,經(jīng)常要看運氣了。

不過,作為初學(xué)者也不必擔(dān)心,近年來興起的自動建模技術(shù)就可以有效的幫助我們。自動建模技術(shù)是將統(tǒng)計學(xué)家和數(shù)學(xué)家的數(shù)據(jù)處理經(jīng)驗和理論融入到軟件中,使得軟件能夠智能的去完成數(shù)據(jù)預(yù)處理,建模型,選參數(shù),做評估等一系列的工作。對于使用者來講只需要將數(shù)據(jù)丟進自動建模工具,并且配置好目標,工具就能夠自動建出優(yōu)質(zhì)模型。即使是沒有統(tǒng)計學(xué)背景,不了解算法的初學(xué)者,或者普通的 IT 程序員都可以通過自動建模技術(shù)來做數(shù)據(jù)挖掘業(yè)務(wù),連簡單的 Python 都不用再學(xué)就可以享受 AI 技術(shù)帶來的福利。

對進一步數(shù)據(jù)挖掘和 AI 技術(shù)感興趣的同學(xué)還可以搜索“乾學(xué)院”,上面有面向小白的零基礎(chǔ)“數(shù)據(jù)挖掘”免費課程,或者直接點下面的鏈接也可以:

http://www.raqsoft.com.cn/wx/course-data-mining.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容