亚洲天堂男人av,亚洲色图欧美日韩在线

數據驅動

提取特征量

傳統(tǒng)算法/其他機器學習算法/神經網絡,灰色部分表示沒有人為介入

訓練數據和測試數據

使用訓練數據進行學習,尋找最優(yōu)的參數
使用測試數據評價模型的實際能力
僅用一個數據集去學習和評價參數,容易出現過擬合

損失函數

神經網絡中以某個指標為線索尋找最優(yōu)權重參數,所用的指標為損失函數
均方誤差: $E=\frac{1}{2}\sum_k(y_k-t_k)^2,其中y_k 是表示神經網絡的輸出，t_k 表示監(jiān)督數據，k 表示數據的維數$
交叉熵誤差: $E=-\sum_kt_klog\ y_k,其中y_k是神經網絡輸出對應分類的概率,t_k表示監(jiān)督數據,k表示數據的維數,log表示自然對數$
批數據的交叉熵誤差: $E=-\frac{1}{N}\sum_n\sum_kt_{nk}log\ y_{nk}$
mini-batch: 從訓練數據中選出一批數據(稱為mini-batch),用這批數據進行學習,這種方式稱為mini-batch

梯度下降法

梯度(gradient): $\nabla f = (\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},...,\frac{\partial f}{\partial x_n})$ ,梯度是一個向量
梯度下降法:
$x_0' = x_0-\eta\frac{\partial f}{\partial x_0} \\ x_1' = x_1-\eta\frac{\partial f}{\partial x_1} \\ 表示成向量形式:\vec {x'} = \vec{x} - \eta·\nabla f\qquad其中\(zhòng)eta稱為學習率 \\ 循環(huán)執(zhí)行這個步驟,當|x'-x|<\epsilon時,凸函數f找到誤差范圍內的最小值$

正向傳播的二層神經網絡

步驟

確定概率預測函數
$predict : (Param,X) \rightarrow \{\\ W_1,W_2,b_1,b_2 = Param[W_1],Param[W_2],Param[b_1],Param[b_1] \\ A_1 = X·W_1^T + b_1 \\ Z_1 = sigmoid(A_1,axis=1) \\ A_2 = Z_1·W_2^T + b_2 \\ Z_2 = softmax(A_2,axis=1) \\ y = Z_2 \\ return\ y\}$
確定T函數(預測正確為1,否則為0)
$t : (Param,X,y) \rightarrow \{ \\ p = predict(Param,X) \\ y_{predict} = argmax(p,axis=1)\\ return\ int(y_{predict} == p,axis=1)\}$
確定交叉熵誤差作為神經網絡損失函數
$loss :(X,Param,y)\rightarrow\{ \\ t_{val} = t(Param,X,y) \\ p = predict(Param,X) \\ return - t_{val}·log(p) \}$
$X$ 和 $t$ 作為參數,確定 $loss$ 函數對變量 $Param$ 在 $Param=Param_0$ 處的梯度
$G_0 = \nabla loss(Param)|_{Param = Param_0,X=X_0,y=y_0}$
使用mni_batch更新參數 $Param$ , $\eta$ 為學習率
$G_{itr} = \nabla loss(Param)|_{Param = Param_{itr},x=x_{batch},y=y_{batch}} \\ Param_{itr+1} = Param_{itr} -G_{itr} * \eta$
(可視化時可選)
周期性地記錄train_acc和test_acc,最后用這兩組記錄繪制學習曲線
達到最大迭代次數后返回 $Param_{maxitr}$