1 為什么存在Machine Learning?
Machine Learning的存在是為了解決實際的商業(yè)問題,即data mining tasks。
2 那么有哪些data mining tasks?

- Classification
- Regression
- Similarity matching
- Clustering
- Co-occurrence grouping
- Profiling
- Link prediction
- Data reduction
- Casual modeling
其中比較主要的是屬于supervised learning(即historical
dataset有標簽變量Y)的Classification和Regression。這兩者的目的都是給出對一個變量的預測。而ML就是找到最接近原始
的
函數(shù)的過程,并帶入
求解得到預測值
。
至于unsupervised learning。一般有兩個作用,第一個預先分類(pre-grouping),比如clustering;第二個提出冗余變量,比如PCA。這兩個作用都屬于降維(dimension reduction),以便于后續(xù)的supervised learning。
2.1 Classification
It attempts to predict, for each individual in a population, which of a set of classes that individual belongs to.
簡單來說,Classification就是給出一個數(shù)據(jù)集中每個個體一個類別(Class)的預測值,并給出屬于這個類別的概率(Probability)。變量為類別值(categorical value)。
2.1 Regression
It attempts to estimate or predict, for each individual, the numerical value of some variable for that individual.
簡單來說,Regression就是給出一個數(shù)據(jù)集中每個個體一個數(shù)值(Numerical Value)的預測值。變量為連續(xù)數(shù)值。
3 利用ML解決task的workflow是怎么樣的呢?

4 如何評估我的ML Model是否能良好解決task?
主要從兩方面來評估:
- Accurracy: MSE/Error rate,當model比較復雜的時候,精確度會上升
-
Parsimony: model是否簡潔,易于符合商業(yè)直覺;簡潔的模型往往apply到不同的數(shù)據(jù)集的時候variance比較小
