這篇文章躺在簡(jiǎn)書(shū)的草稿里好久了,一直沒(méi)有鼓起勇氣來(lái)寫(xiě),理由其實(shí)也很簡(jiǎn)單,自己并沒(méi)有學(xué)透這個(gè)概念。另外也以前也完全沒(méi)有寫(xiě)過(guò)類似的技術(shù)文章,唉,不管怎么著,還是先開(kāi)始吧。
萬(wàn)事開(kāi)頭難,雖然這個(gè)頭開(kāi)的很難看,但是開(kāi)了頭才能繼續(xù)往下走不是。
定義
在數(shù)據(jù)挖掘中,線性回歸屬于回歸的一種。而回歸是一種預(yù)測(cè)建模技術(shù),其中被估計(jì)的因變量是連續(xù)的數(shù)值。當(dāng)自變量只有一個(gè)時(shí)的回歸又叫做簡(jiǎn)單線性回歸或一元線性回歸。當(dāng)自變量超過(guò)一個(gè)時(shí)的回歸,叫做多元線性回歸。
回歸的目標(biāo)是找到一個(gè)可以以最小誤差擬合輸入數(shù)據(jù)的函數(shù)。線性回歸的誤差函數(shù)可以使用絕對(duì)誤差或誤差平方和來(lái)表示。
線性回歸模型經(jīng)常用最小二乘逼近來(lái)擬合,但他們也可能用別的方法來(lái)擬合,比如用最小化“擬合缺陷”在一些其他規(guī)范里(比如最小絕對(duì)誤差回歸),或者在橋回歸中最小化最小二乘損失函數(shù)的懲罰。相反,最小二乘逼近可以用來(lái)擬合那些非線性的模型。因此,盡管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等號(hào)的。
應(yīng)用場(chǎng)合
線性回歸是回歸分析中第一種經(jīng)過(guò)嚴(yán)格研究并在實(shí)際應(yīng)用中廣泛使用的類型。
線性回歸有很多實(shí)際用途。分為以下兩大類:
如果目標(biāo)是預(yù)測(cè)或者映射,線性回歸可以用來(lái)對(duì)觀測(cè)數(shù)據(jù)集的和X的值擬合出一個(gè)預(yù)測(cè)模型。當(dāng)完成這樣一個(gè)模型以后,對(duì)于一個(gè)新增的X值,在沒(méi)有給定與它相配對(duì)的y的情況下,可以用這個(gè)擬合過(guò)的模型預(yù)測(cè)出一個(gè)y值。
這一類的例子很多,例如使用其他指數(shù)預(yù)測(cè)股市指數(shù),使用已有的房屋買(mǎi)賣(mài)數(shù)據(jù)預(yù)測(cè)房屋買(mǎi)賣(mài)價(jià)格等。
給定一個(gè)變量y和一些變量X1,...,Xp,這些變量有可能與y相關(guān),線性回歸分析可以用來(lái)量化y與Xj之間相關(guān)性的強(qiáng)度,評(píng)估出與y不相關(guān)的Xj,并識(shí)別出哪些Xj的子集包含了關(guān)于y的冗余信息。
線性回歸應(yīng)用實(shí)現(xiàn)
以下是用線性回歸預(yù)測(cè)房屋買(mǎi)賣(mài)價(jià)格的相關(guān)實(shí)現(xiàn),相關(guān)數(shù)據(jù)使用的是coursera上華盛頓大學(xué)的“機(jī)器學(xué)習(xí)基礎(chǔ):案例研究”中第二周課上使用的數(shù)據(jù)。課程鏈接如下:
Machine Learning Foundations: A Case Study Approach!?
