多個特征量

4個特征量
m表示訓(xùn)練集記錄條數(shù);
n表示特征量的數(shù)量;
x(i)表示第i條訓(xùn)練數(shù)據(jù);
xj(i)表示第i條訓(xùn)練數(shù)據(jù)的第j個特征量;
多元線性回歸的假設(shè)函數(shù)
hθ(x) = θ0 + θ1x1 + θ2x2 + θ3x3 + ? + θnxn
引入變量x0=1,假設(shè)函數(shù)可寫為:
hθ(x) = θ0x0 + θ1x1 + θ2x2 + θ3x3 + ? + θnxn
利用矩陣乘法的定義,我們的多元假設(shè)函數(shù)可以簡潔地表示為:

θ向量的轉(zhuǎn)置向量 乘以 x向量
多元線性回歸的梯度下降
多元線性回歸的梯度下降公式

公式展開形式

公司簡潔形式
一元線性回歸和多元線性回歸的梯度下降公式實(shí)際上是一個公式。

一元線性回歸和多元線性回歸的梯度下降公式
梯度下降實(shí)際應(yīng)用 - 特征縮放
如果多個特征量的數(shù)據(jù)范圍差別較大,比如房屋面積為500 ~ 2000,臥室數(shù)量為2 ~ 5,那么梯度下降時會導(dǎo)致計算性能下降,此時就需要將特征值統(tǒng)一縮放到-1 ~ 1或-0.5 ~ 0.5。
一般使用2種技術(shù),一種是特征縮放,一種是均值歸一化(mean normalization)。
特征縮放公式?jīng)]有特定的公式,一般只要將特征值縮放到-3 ~ 3范圍內(nèi)就可以接受。特征縮放的結(jié)果不要求太精確。
均值歸一化公式:

均值歸一化
μi為xi的均值;
si為max(xi) - min(xi),稱為標(biāo)準(zhǔn)差。
均值歸一化的計算結(jié)果在-0.5和+0.5之間。
梯度下降實(shí)際應(yīng)用 - 學(xué)習(xí)速率

選擇正確的α,代價函數(shù)逐漸收斂

學(xué)習(xí)速率過大,導(dǎo)致發(fā)散或波動
特征及多項式回歸
選擇合適的特征會使學(xué)習(xí)算法更加有效。多個相關(guān)特征可以考慮合并為一個特征,比如房屋的長和寬,可以相乘合并為面積。
如果訓(xùn)練樣本不是線性分布,我們可以通過將假設(shè)函數(shù)變成二次函數(shù)、三次函數(shù)或平方根函數(shù)(或任何其他形式)來改變其行為或曲線。

二次函數(shù)會下降,所以這里使用平方根函數(shù)更合適
需要記住的一件重要事情是,如果您以這種方式選擇特性,那么特性伸縮就變得非常重要。因為平方、三次方、平方根會使特征值相差太大。