Kaggle過程概要

kaggle 比賽的基本流程

先對(duì)比賽的基本流程進(jìn)行簡(jiǎn)述,然后再根據(jù)具體步驟進(jìn)行仔細(xì)學(xué)習(xí),順便把PUBG那個(gè)做了,數(shù)據(jù)分析和機(jī)器學(xué)習(xí)方面就算是不用再準(zhǔn)備別的比賽或者信息了(Challenge AI那個(gè)算CV的)。

1 Data Exploration

首先是要進(jìn)行EDA(Exploratory Data Analysis),對(duì)數(shù)據(jù)進(jìn)行探索性的分析,從而為之后的處理和建模提供分析。

1.1 Visualization

1.2 Statistical Tests

2 Data Preprocessing

2.1 Outlier

2.2 Dummy Variables

3 Feature Engineering

Kaggle 比賽是 “Feature 為主,調(diào)參和 Ensemble 為輔”,我覺得很有道理。Feature Engineering 能做到什么程度,取決于對(duì)數(shù)據(jù)領(lǐng)域的了解程度。比如在數(shù)據(jù)包含大量文本的比賽中,常用的 NLP 特征就是必須的。怎么構(gòu)造有用的 Feature,是一個(gè)不斷學(xué)習(xí)和提高的過程。

一般來說,當(dāng)一個(gè)變量從直覺上來說對(duì)所要完成的目標(biāo)有幫助,就可以將其作為 Feature。至于它是否有效,最簡(jiǎn)單的方式就是通過圖表來直觀感受。

3.1 Feature Selection

3.2 Feature Encoding

4 Model Selection

4.1 Model Training

4.2 Cross Validation

5. Ensemble Generation

5.1 Stacking

6 Pipeline

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • [TOC] About Trs 只是閱讀過程中對(duì)其中一些進(jìn)行注腳而已,更確切的內(nèi)容還是英文原文來的清晰,有些翻譯反...
    mrlevo520閱讀 1,327評(píng)論 0 0
  • 今日有幾事 1,寶寶只是病了一天,但是感覺自己一直沒調(diào)整過精神,一直犯困中。中午沒有吃飯,和寶寶兩個(gè)人一直睡。我到...
    大果果ly閱讀 229評(píng)論 0 0
  • 失眠,將黑夜揉碎成幾段, 一段給了回憶, 記不起最后一次的單純?cè)诤螘r(shí), 或許那時(shí)只是傻傻, 身影向后退卻變得依稀,...
    阿伊蘭香閱讀 276評(píng)論 0 2
  • 傳統(tǒng)的二十四節(jié)氣,我們大多已經(jīng)是知其然而不知其所以然了。記得小時(shí)候?qū)τ诙墓?jié)氣的唯一印象就是我們需要背一個(gè)...
    漩月閱讀 1,027評(píng)論 7 0
  • 昨天的開發(fā)者大會(huì)中,一個(gè)參會(huì)者問了一下圓桌會(huì)議上所有嘉賓一個(gè)問題: 如果用兩個(gè)詞兩總結(jié)一下你的2017,你會(huì)用哪兩...
    黑土錢閱讀 189評(píng)論 0 0

友情鏈接更多精彩內(nèi)容