六步繞開數(shù)據(jù)挖掘路上的坑

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是一項非常有挑戰(zhàn)的工作。不同于其它工作,從一開始進行數(shù)據(jù)挖掘就沒有明確的需求,用戶也不知道想要什么東西。直到用戶看到做出的結果觸發(fā)他們的靈感,才能將他們的業(yè)務知識不斷融入其中進行深層次的挖掘探索。

數(shù)據(jù)挖掘是一個反復交互的過程。數(shù)據(jù)挖掘過程中需要將挖掘的結果不斷的提交給最終用戶使用,這樣才能不斷獲得用戶的反饋,讓用戶深層次地參與進來。該工作不能閉門造車,如果所有工作做完之后再給用戶使用,那些你認為合理的挖掘很有可能用戶會覺得一文不值。

首次進行數(shù)據(jù)挖掘,有效的挖掘結果產(chǎn)出率極低。如果按照二八原則,面對不明確的需求,首次能夠有20%的有效的挖掘成果就是很不錯的了。面對這樣的窘境不要灰心,在前人的探索下已經(jīng)形成了一套有效且通用的挖掘工作標準方法。我們按照給出的流程推進挖掘工作,可盡量避免不必要的資源耗損。該方法嚴格按照數(shù)據(jù)挖掘建模標準(CRISP-DM)來執(zhí)行,該模型將挖掘建模分為以下六個遞進階段(挖掘工作應該按部就班從第一步走到第六步)。


數(shù)據(jù)挖掘建模標準(CRISP-DM)

第一步,定義商業(yè)問題。定義商業(yè)問題是明確要達到的業(yè)務目標,并將其轉換為數(shù)據(jù)挖掘主題。要從商業(yè)角度對業(yè)務部門的需求進行理解,把業(yè)務需求的理解轉化為數(shù)據(jù)挖掘的定義,擬定達成業(yè)務目標的初步方案。具體包括商業(yè)背景分析、商業(yè)成功標準的確定、形勢評估、獲得企業(yè)資源清單、獲得企業(yè)的要求和設想、評估成本和收益、評估風險和意外、初步理解行業(yè)術語,并確定數(shù)據(jù)挖掘的目標和制定數(shù)據(jù)挖掘計劃

此處有坑:

業(yè)務目標不清晰。一開始就跳入項目最有趣的部分--分析數(shù)據(jù),但這樣做只產(chǎn)出有趣的模型,而不能滿足真正的商業(yè)需要。不能一開始就陷入細節(jié),應該真正去了解業(yè)務問題以及明確模型可以發(fā)揮什么作用,確定項目團隊的業(yè)務目標和提出衡量項目成功的指標。

第二步,數(shù)據(jù)理解。進行數(shù)據(jù)理解要找出可能影響主題的因素,確定這些影響因素的數(shù)據(jù)載體、數(shù)據(jù)體現(xiàn)形式和數(shù)據(jù)存儲位置。數(shù)據(jù)理解從數(shù)據(jù)收集開始,然后熟悉數(shù)據(jù),具體包括以下工作內(nèi)容:檢測數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進行初步理解,簡單描述數(shù)據(jù),探測數(shù)據(jù)意義,并對數(shù)據(jù)中潛藏的信息和知識提出擬用數(shù)據(jù)加以驗證的假設。

此處有坑:

對數(shù)據(jù)缺乏理解。缺乏對數(shù)據(jù)的深度理解可能導致選取了不合理的數(shù)據(jù)進行數(shù)據(jù)挖掘。因為數(shù)據(jù)混雜,數(shù)據(jù)覆蓋率不全,數(shù)據(jù)完整性不強和數(shù)據(jù)獨立都會影響有效信息的發(fā)掘。應該認真選擇合理的對業(yè)務目標支撐最大的數(shù)據(jù),理解數(shù)據(jù)的意義,弄清不同數(shù)據(jù)之間的關聯(lián)關系。

第三步,數(shù)據(jù)預處理。預處理是將前面找到的數(shù)據(jù)進行變換、組合,建立數(shù)據(jù)挖掘工具軟件要求的格式和內(nèi)容的寬表。數(shù)據(jù)準備階段要從原始數(shù)據(jù)中形成作為建模分析對象的最終數(shù)據(jù)集。數(shù)據(jù)準備階段的具體工作主要包括數(shù)據(jù)制表、記錄處理、變量選擇、數(shù)據(jù)轉換、數(shù)據(jù)格式化和數(shù)據(jù)清理等,各項工作并不需要預先規(guī)定好執(zhí)行順序,而且數(shù)據(jù)準備工作還有可能多次執(zhí)行。

此處有坑:

未做好對數(shù)據(jù)預處理工作。直接把數(shù)據(jù)從生產(chǎn)系統(tǒng)中導出使用,數(shù)據(jù)粒度參差不齊,導致很多分析無法輕易進行。若未對臟數(shù)據(jù)進行清洗,臟數(shù)據(jù)會影響分析結果。在理解數(shù)據(jù)之后將數(shù)據(jù)預處理形成統(tǒng)一格式非常重要,數(shù)據(jù)預處理的好壞直接影響后面模型建立以及模型的運行結果。

第四步,建立模型。建立模型是應用軟件工具,選擇合適的建模方法,處理準備好的數(shù)據(jù)寬表,找出數(shù)據(jù)中隱藏的規(guī)律。在建立模型階段,將選擇和使用各種建模方法,并將模型參數(shù)進行優(yōu)化。對同樣的業(yè)務問題和數(shù)據(jù)準備,可能有多種數(shù)據(jù)挖掘技術方法可供選用,此時可優(yōu)選提升度高、置信度高、簡單而易于總結業(yè)務政策和建議的數(shù)據(jù)挖掘技術方法。在建模過程中,還可能會發(fā)現(xiàn)一些潛在的數(shù)據(jù)問題,要求回到數(shù)據(jù)準備階段。建立模型階段的具體工作包括:選擇合適的建模技術、進行檢驗設計、建造模型。

此處有坑:

盲目地返工。一些分析團隊只用分析術語來評估他們的模型,認為如果模型只要做到可預測,那么它就是一個好的模型。大多數(shù)人通??梢砸庾R到模型是有問題的,就會嘗試檢查他們的模型是否符合業(yè)務目標。但如果缺乏對商業(yè)問題的充分認識,這樣的檢查往往是徒勞的。如果他們開發(fā)的模型不符合業(yè)務需求,大多數(shù)人選擇的是去找新數(shù)據(jù)或新的建模技術,而不是與他們的業(yè)務合作伙伴一起重新評估業(yè)務問題。

第五步,評價和解釋。模型評估是從業(yè)務角度和統(tǒng)計角度進行模型結論的評估。要求檢查建模的整個過程,以確保模型沒有重大錯誤,并檢查是否遺漏重要的業(yè)務問題。當模型評估階段結束時,應對數(shù)據(jù)挖掘結果的發(fā)布計劃達成一致。

此處有坑:

模型評估機制未建立。沒有模型評估機制,就無法評估模型是否有效,得出的挖掘結果缺乏理論支撐。評估機制分為兩點:第一、對模型的評估主要體現(xiàn)在檢查功能的實現(xiàn)情況,比如檢查所需要的報表、圖表、數(shù)據(jù)是否按要求建立。第二、模型對商業(yè)問題的支撐力度,此評判建立在對商業(yè)問題的深入理解之上才能對結果進行判斷。

第六步,部署和使用。建立模型本身并不是數(shù)據(jù)挖掘的目標,雖然模型使數(shù)據(jù)背后隱藏的信息和知識顯現(xiàn)出來,但數(shù)據(jù)挖掘的根本目標是將信息和知識以某種方式組織和呈現(xiàn)出來(如:圖形化報表展示),并用來改善運營和提高效率。當然,在實際的數(shù)據(jù)挖掘工作中,根據(jù)不同的企業(yè)業(yè)務需求,模型發(fā)布的具體工作可能簡單到提交數(shù)據(jù)挖掘報告,也可能復雜到將模型集成到企業(yè)的核心運營系統(tǒng)中。

此處有坑:

盲目地部署。一些分析團隊根本不考慮他們模型的部署和操作的易用性。做得好些的團隊可以認識到他們構建的模型必將處理實時數(shù)據(jù),數(shù)據(jù)通常存儲在數(shù)據(jù)庫中,或嵌入在操作系統(tǒng)中。即使是這樣的團隊通常也沒有參與到部署工作中,不清楚模型是如何部署的,并不把部署當做分析工作的一部分。結果就是把模型直接丟給IT團隊去部署,模型是否容易部署以及在生產(chǎn)環(huán)境中是否可用都是別人的問題。這增加了模型部署的時間和成本,并產(chǎn)生了大量從未對業(yè)務產(chǎn)生影響的模型。

無法形成迭代。建模專家團隊了解模型的生命周期,為了保證模型的可用性,需要對模型保持更新。他們知道隨著商業(yè)環(huán)境變化,模型的價值會改變,驅(qū)動模型的數(shù)據(jù)模式可能會改變。但他們認為這是另一個時間點的問題。由于他們?nèi)鄙賹I(yè)務問題的足夠認識,往往難以確定如何評估模型的表現(xiàn),相比模型建立階段,他們在模型迭代、修改上的投入更少。畢竟解決另一個新問題更有趣。這使得老的模型不受監(jiān)控和保護,從而破壞了模型的長期價值。

小結:

以上章節(jié)介紹了數(shù)據(jù)挖掘建模標準(CRISP-DM),對每一步要做什么工作進行了描述。同時,也對沒有做好的情況可能帶來的坑簡要的說明了一下。

以上任意一步差錯帶來的問題都可能使構建出來的模型毫無商業(yè)價值,真正需要利用分析的組織,特別是數(shù)據(jù)挖掘、預測和機器學習等更高級的分析,必須避免這些問題。解決這些問題需要明確、清晰地關注決策,圍繞著決策展開,包括需要改善的決策方法,做能實際改善決策的分析模型,設計可以輔助決策的系統(tǒng),還需要明確在怎樣的外部環(huán)境下需要重新評估模型。

期待在數(shù)據(jù)挖掘道路上同前行,共成長。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容