機(jī)器學(xué)習(xí)交易——如何使用回歸預(yù)測(cè)股票價(jià)格?

姓名:謝童? 學(xué)號(hào):16020188008? 轉(zhuǎn)自微信公眾號(hào)? Bigquant

前幾天,我讀了一篇關(guān)于人工智能到目前為止是如何發(fā)展的以及它將走向何方的文章。我被嚇了一跳,我也很難理解作者所描繪的未來的可能性。

這是人工智能在醫(yī)學(xué)領(lǐng)域應(yīng)用的可能性之一:

外科醫(yī)生可以用她的運(yùn)動(dòng)皮層控制一個(gè)機(jī)器手術(shù)刀,而不是用她的手。她可以從手術(shù)刀接收到感覺輸入,這如同她的第11個(gè)手指一般。這就好像她的一個(gè)手指是手術(shù)刀,她可以不用任何工具就可以做手術(shù),這能讓她能夠更好的操作。一個(gè)沒有經(jīng)驗(yàn)的外科醫(yī)生在做一個(gè)復(fù)雜的手術(shù)時(shí),可能會(huì)讓她的幾個(gè)導(dǎo)師來到現(xiàn)場(chǎng),給予她指導(dǎo)或建議。如果真的出了什么問題,他們中的一個(gè)可以“控制方向盤”,把他們的運(yùn)動(dòng)皮層和她的輸出連接起來,并且控制她的手來進(jìn)行接下來的手術(shù)。

目前,人工智能和機(jī)器學(xué)習(xí)已經(jīng)取得了足夠的進(jìn)步,所以我們現(xiàn)在可以將這些機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到交易中,并達(dá)到很高的精確程度。

什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是指計(jì)算機(jī)算法能自主地從數(shù)據(jù)和信息中學(xué)習(xí)并改進(jìn)現(xiàn)有的算法。

簡(jiǎn)單地說,機(jī)器學(xué)習(xí)是這樣的,以下圖這個(gè)孩子為例,我們把他當(dāng)成是一臺(tái)智能機(jī)器。

給他一個(gè)棋盤

解釋游戲的基本規(guī)則

給出100個(gè)好的游戲記錄

把孩子鎖在房間里(也放些食物和水)

十天后。

在這個(gè)象棋學(xué)習(xí)案例中,小孩就好比機(jī)器,過去的游戲記錄是數(shù)據(jù),象棋基本規(guī)則是算法。我們只給機(jī)器提供了一個(gè)基本的算法和一些數(shù)據(jù)來學(xué)習(xí)。機(jī)器通過對(duì)數(shù)據(jù)篩選,了解怎樣操作能提高贏得游戲的機(jī)會(huì),并將這些操作添加到算法中。這就是機(jī)器學(xué)習(xí)的概念。與人類相比,計(jì)算機(jī)的優(yōu)勢(shì)在于,計(jì)算機(jī)能夠快速地完成這一任務(wù),并且是針對(duì)更大的數(shù)據(jù)集和持續(xù)的時(shí)間段。

然而,這只是一個(gè)簡(jiǎn)單例子,機(jī)器學(xué)習(xí)還有很多其它有趣的應(yīng)用場(chǎng)景。

此外,人們經(jīng)常把人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)搞混。人工智能是一個(gè)包含很多東西的大領(lǐng)域,而機(jī)器學(xué)習(xí)是人工智能的一部分,而深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集。下圖能夠清晰展示三者的關(guān)系。

為什么機(jī)器學(xué)習(xí)會(huì)如此流行?

如果你深入挖掘,你會(huì)發(fā)現(xiàn)機(jī)器學(xué)習(xí)已經(jīng)存在很久了。例如,在1763年,Thomas Bayes發(fā)表了一篇文章——?‘An Essay towards solving a Problem in the Doctrine of Chances’ ,這篇文章試圖解決“機(jī)會(huì)主義”的問題,從此便有了“貝葉斯規(guī)則”,這是機(jī)器學(xué)習(xí)中使用的重要算法之一。

但今天,機(jī)器學(xué)習(xí)正以前所未有的速度向前發(fā)展。我們可能沒有意識(shí)到但是機(jī)器學(xué)習(xí)的應(yīng)用到處都是:

推薦系統(tǒng)(facebook新聞推送,亞馬遜產(chǎn)品推薦)

自然語言處理(Siri,谷歌語音)

醫(yī)學(xué)診斷(圖像點(diǎn)樣)

目標(biāo)識(shí)別與跟蹤(面部識(shí)別、車牌讀取、跟蹤)

挖掘“大數(shù)據(jù)”分析(這種模式的股票通常會(huì)上漲)

數(shù)據(jù)的分類與聚類(欺詐檢測(cè)、序列挖掘等)

所有這些都是基于從過去的數(shù)據(jù)中學(xué)習(xí)并預(yù)測(cè)未知/新情況的結(jié)果的概念,就像人類學(xué)習(xí)的方式一樣。但電腦的優(yōu)勢(shì)在于,它們可以處理更大范圍的數(shù)據(jù),而且復(fù)雜得多,這是人類無法做到的。

在當(dāng)今的環(huán)境下,每天都會(huì)生成上萬億字節(jié)的數(shù)據(jù)。對(duì)于人類來說,要從中進(jìn)行處理并做出有用的推斷是不可能的。當(dāng)然,聰明的人或許能夠做出更好的預(yù)測(cè)和推斷,但機(jī)器學(xué)習(xí)算法在規(guī)模和復(fù)雜性方面都超過了我們。隨著時(shí)間的推移,這些計(jì)算機(jī)的預(yù)測(cè)將超越人類的水平。

因此,當(dāng)每個(gè)行業(yè)都開始以某種形式實(shí)踐機(jī)器學(xué)習(xí)時(shí),作為一個(gè)交易員,為什么不利用這一點(diǎn)來為自己謀利,賺更多的錢呢?你猜怎么著?機(jī)器學(xué)習(xí)和交易是緊密相連的,就像奶酪和葡萄酒一樣。一些頂級(jí)交易員和對(duì)沖基金經(jīng)理已經(jīng)使用機(jī)器學(xué)習(xí)算法做出很好的預(yù)測(cè),并賺了不少錢!

線性回歸是什么?

這里是標(biāo)準(zhǔn)的定義:線性回歸是一種建模標(biāo)量因變量y與一個(gè)或多個(gè)表示為X的解釋變量(或自變量)之間關(guān)系的方法。

讓我以一種非?;镜姆绞絹斫忉尰貧w的概念,假設(shè)你經(jīng)營一家生產(chǎn)汽車的公司,你想知道原材料(比如鋼鐵)的價(jià)格變化將如何影響汽車的銷售。一般的理解是,鋼鐵價(jià)格的上漲將導(dǎo)致汽車價(jià)格的上漲,從而導(dǎo)致需求減少,進(jìn)而導(dǎo)致銷量減少。但是我們?nèi)绾瘟炕?我們?nèi)绾胃鶕?jù)鋼價(jià)的變化程度來預(yù)測(cè)銷售量的變化。這時(shí)回歸就出現(xiàn)了。

讓我們看看以下的示例數(shù)據(jù):

我們把這個(gè)放到圖中,這個(gè)圖叫做散點(diǎn)圖

Y軸是汽車的銷售量(這是我們的因變量),X軸是鋼的價(jià)格(自變量)。通過一般的觀察,你可以看出,只要鋼價(jià)下跌,汽車的銷量就會(huì)提高。

樣本數(shù)據(jù)是回歸算法的訓(xùn)練材料?,F(xiàn)在,它將幫助我們預(yù)測(cè),如果鋼鐵價(jià)格下降到168,我們可能實(shí)現(xiàn)什么樣的銷售。

因此,當(dāng)您將樣本數(shù)據(jù)放入excel電子表格并執(zhí)行回歸時(shí),您將得到如下所示的回歸直線

里面有一些奇怪的數(shù)字,為了便于的理解,我只關(guān)注其中的一些指標(biāo)。線性回歸函數(shù)的目的是找到一條與所有數(shù)據(jù)點(diǎn)最接近的直線,這樣當(dāng)我們想要計(jì)算一個(gè)新的因變量的預(yù)測(cè)時(shí),我們可以選擇在X軸上與自變量對(duì)應(yīng)的直線上的后續(xù)點(diǎn)。

因此,上述計(jì)算是基于下面的方程進(jìn)行的,也稱為回歸表達(dá)式。

“Y”——汽車銷量或因變量,這就是我們要預(yù)測(cè)的

“X”——鋼鐵價(jià)格或自變量,這將被用來預(yù)測(cè)“Y”

“b0” -截距是我們的回歸直線與“y”軸相交的值

“b1” -斜率系數(shù),它告訴我們X值增加1個(gè)單位將使Y值變化多少個(gè)單位

“ei” -誤差項(xiàng),當(dāng)我們用這個(gè)方程表示的任何變量的關(guān)系不完全代表自變量和因變量之間的實(shí)際關(guān)系時(shí),表示這種差異的變量稱為誤差項(xiàng)或剩余、擾動(dòng)或余數(shù)項(xiàng)

R2 - R平方或相關(guān)系數(shù),這顯示了數(shù)據(jù)與擬合回歸線的距離

如果你看上面的回歸圖,你會(huì)看到一個(gè)回歸方程,也就是:

y = -4.6129x + 1297.7

在這個(gè)方程中,

b1 = -4.6129

b0 + ei = 1297.7

注意,斜率系數(shù)或b1是負(fù)的,這意味著兩個(gè)變量(汽車的鋼材價(jià)格和銷售)是負(fù)相關(guān)的,這意味著當(dāng)鋼材價(jià)格上漲時(shí),汽車銷量下降。

方程的R2是0.92,說明擬合度很好,這個(gè)值越接近1,預(yù)測(cè)能力越強(qiáng)。

現(xiàn)在說到最精彩的部分,以鋼鐵價(jià)格的任何變化為例,比如價(jià)格為168時(shí),我們要計(jì)算汽車銷售的預(yù)期增長。

(汽車銷售)= -4.6129 x(168) + 1297.7。

鋼價(jià)跌至168時(shí),汽車銷售量= 522.73輛

即使有多個(gè)變量影響了汽車的銷售,我們也能計(jì)算出一個(gè)預(yù)測(cè)。當(dāng)回歸中有多個(gè)自變量時(shí),稱為多元回歸模型

回歸和股票市場(chǎng)

現(xiàn)在,讓我向你們展示一個(gè)現(xiàn)實(shí)生活中的回歸在股市中的應(yīng)用。例如,我們持有Canara銀行股票,想看看銀行的Nifty(銀行指數(shù))價(jià)格的變化如何影響到Canara的股價(jià)。我們的目標(biāo)是找到一個(gè)函數(shù),它將幫助我們根據(jù)指數(shù)的給定價(jià)格預(yù)測(cè)Canara銀行的價(jià)格。

我們將采用Bank Nifty & Canara最近兩個(gè)月的收盤價(jià),我們將采用調(diào)整后的收盤價(jià)作為數(shù)據(jù)一致性。請(qǐng)注意,擁有準(zhǔn)確的數(shù)據(jù)是非常重要的,因?yàn)榧词故菙?shù)據(jù)中的一個(gè)數(shù)字也會(huì)使回歸函數(shù)發(fā)生顯著的變化。

在這些數(shù)據(jù)中,我們將前40天作為訓(xùn)練數(shù)據(jù),后20天作為測(cè)試數(shù)據(jù),其中我們將檢查回歸算法的預(yù)測(cè)與實(shí)際數(shù)字的接近程度。

使用相同的excel函數(shù),我們根據(jù)前40天的訓(xùn)練數(shù)據(jù)畫出了這條回歸線它的決定系數(shù)(R2)為0.85。這意味著Canara銀行和Bank Nifty有著85%的相關(guān)性。

這是回歸表達(dá)式,

讓我們看看算法的預(yù)測(cè),預(yù)測(cè)用藍(lán)色標(biāo)出

看看后20天我們用模型預(yù)測(cè)的這些數(shù)據(jù),我們可以看到預(yù)測(cè)值與實(shí)際值非常接近,預(yù)測(cè)結(jié)果可能是不能用來直接交易的,但這給了我們一個(gè)方向。你可以通過添加多個(gè)獨(dú)立變量來進(jìn)一步改進(jìn)該方法。這樣做將有助于減少剩余或錯(cuò)誤,并幫助您更接近實(shí)際價(jià)格。

我只用了2個(gè)月的數(shù)據(jù),你可以用幾年的數(shù)據(jù)得到更準(zhǔn)確的結(jié)果。訓(xùn)練數(shù)據(jù)越多,結(jié)果越好。當(dāng)你繼續(xù)向它添加新的市場(chǎng)數(shù)據(jù)時(shí),你會(huì)看到函數(shù)會(huì)通過重新計(jì)算系數(shù)和截距值而不斷改進(jìn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 0.前言## 機(jī)器學(xué)習(xí)[Machine Learning]在當(dāng)今社會(huì)的火熱程度有目共睹,自己也一直想寫一下自己對(duì)M...
    城市中迷途小書童閱讀 1,234評(píng)論 0 7
  • 0.前言## 機(jī)器學(xué)習(xí)[Machine Learning]在當(dāng)今社會(huì)的火熱程度有目共睹,自己也一直想寫一下自己對(duì)M...
    流川楓AI閱讀 2,799評(píng)論 14 99
  • 隊(duì)列 隊(duì)列是先進(jìn)先出(FIFO)的線性表。在具體應(yīng)用中通常用鏈表或者數(shù)組來實(shí)現(xiàn)。隊(duì)列只允許在后端(稱為rear)進(jìn)...
    Showdy閱讀 477評(píng)論 0 0
  • 也許,工作是一個(gè)人生完整鏈條中最長,也是最主要的一個(gè)部分,畢竟人的一輩子,最好的青春獻(xiàn)給了讀書,最好的年紀(jì)奉獻(xiàn)給了...
    呆傻癡愚蠢笨閱讀 328評(píng)論 0 1
  • 在《西游記》中,你們肯定都認(rèn)識(shí)豬八戒吧?當(dāng)你看完《西游記》時(shí),就會(huì)覺得豬八戒是最懶最笨的人。為什么這么說?...
    12小溪流阿凡達(dá)閱讀 440評(píng)論 0 0

友情鏈接更多精彩內(nèi)容