ML1 - 導論

1 為什么存在Machine Learning?

Machine Learning的存在是為了解決實際的商業(yè)問題,即data mining tasks。

2 那么有哪些data mining tasks?

  • Classification
  • Regression
  • Similarity matching
  • Clustering
  • Co-occurrence grouping
  • Profiling
  • Link prediction
  • Data reduction
  • Casual modeling

其中比較主要的是屬于supervised learning(即historical
dataset有標簽變量Y)的Classification和Regression。這兩者的目的都是給出對一個變量Y=F(X)的預測。而ML就是找到最接近原始F(X)\hat{F}(X)函數(shù)的過程,并帶入X求解得到預測值\hat{Y}。
至于unsupervised learning。一般有兩個作用,第一個預先分類(pre-grouping),比如clustering;第二個提出冗余變量,比如PCA。這兩個作用都屬于降維(dimension reduction),以便于后續(xù)的supervised learning。

2.1 Classification

It attempts to predict, for each individual in a population, which of a set of classes that individual belongs to.
簡單來說,Classification就是給出一個數(shù)據(jù)集中每個個體一個類別(Class)的預測值,并給出屬于這個類別的概率(Probability)。變量Y=F(X)為類別值(categorical value)。

2.1 Regression

It attempts to estimate or predict, for each individual, the numerical value of some variable for that individual.
簡單來說,Regression就是給出一個數(shù)據(jù)集中每個個體一個數(shù)值(Numerical Value)的預測值。變量Y=F(X)為連續(xù)數(shù)值。

3 利用ML解決task的workflow是怎么樣的呢?

Workflow

4 如何評估我的ML Model是否能良好解決task?

主要從兩方面來評估:

  • Accurracy: MSE/Error rate,當model比較復雜的時候,精確度會上升
  • Parsimony: model是否簡潔,易于符合商業(yè)直覺;簡潔的模型往往apply到不同的數(shù)據(jù)集的時候variance比較小


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 久違的晴天,家長會。 家長大會開好到教室時,離放學已經沒多少時間了。班主任說已經安排了三個家長分享經驗。 放學鈴聲...
    飄雪兒5閱讀 7,870評論 16 22
  • 今天感恩節(jié)哎,感謝一直在我身邊的親朋好友。感恩相遇!感恩不離不棄。 中午開了第一次的黨會,身份的轉變要...
    余生動聽閱讀 10,918評論 0 11
  • 可愛進取,孤獨成精。努力飛翔,天堂翱翔。戰(zhàn)爭美好,孤獨進取。膽大飛翔,成就輝煌。努力進取,遙望,和諧家園。可愛游走...
    趙原野閱讀 3,551評論 1 1
  • 在妖界我有個名頭叫胡百曉,無論是何事,只要找到胡百曉即可有解決的辦法。因為是只狐貍大家以訛傳訛叫我“傾城百曉”,...
    貓九0110閱讀 3,728評論 7 3

友情鏈接更多精彩內容