簡介:
在這篇文章中,我將解釋:什么是參數(shù)估計的最大似然方法,并通過一個簡單的示例演示該方法。
[圖片上傳失敗...(image-ce876e-1622536173074)]
1. 什么是參數(shù)?
在機器學(xué)習(xí)中,我們經(jīng)常使用模型來描述觀察到的數(shù)據(jù)過程。例如:
- 我們可以使用隨機森林模型對客戶是否取消訂閱進行分類(稱為客戶流失模型);
- 或者可以使用線性模型來預(yù)測公司的收入,具體取決于他們的收入可能會花在廣告上(這將是線性回歸的一個示例)。每個模型都包含自己的一組參數(shù),這些參數(shù)最終定義了模型的特性。
例如:對于線性模型,我們可以將其寫為y = mx + c。在此示例中,x可以代表廣告支出,y可以代表產(chǎn)生的收入。m和c是此模型的參數(shù)。這些參數(shù)的不同值將給出不同的數(shù)據(jù)(請參見下圖)。
[圖片上傳失敗...(image-3888ae-1622536173074)]
備注:具有不同參數(shù)值的三個線性模型。
因此參數(shù)定義了模型的藍圖。只有當(dāng)為參數(shù)選擇特定值時,我們才能獲得描述給定現(xiàn)象的模型。
2. 最大似然估計的直觀解釋
最大似然估計是一種確定模型參數(shù)值的方法。找到參數(shù)值以使它們最大化由模型描述的過程產(chǎn)生實際觀察到的數(shù)據(jù)的可能性(這是人話嗎?)。
上面的定義可能聽起來仍然有些晦澀難懂,因此讓我們來看一個示例以幫助理解這一點。
假設(shè)我們從某個過程中觀察到10個數(shù)據(jù)點。例如,每個數(shù)據(jù)點都可以表示學(xué)生回答特定考試問題所花費的時間(以秒為單位)。這10個數(shù)據(jù)點如下圖所示。
[圖片上傳失敗...(image-f9fb94-1622536173074)]
我們首先必須確定我們認為最能描述數(shù)據(jù)生成過程的模型。這部分非常重要。至少,我們應(yīng)該對使用哪種模型有個估計。這通常是由于具有一些領(lǐng)域?qū)I(yè)知識而引起的,但是我們在這里不進行討論。
對于這些數(shù)據(jù),我們假設(shè)數(shù)據(jù)生成過程可以用高斯(正態(tài))分布來充分描述。上圖的目測為高斯分布是合理的,因為10個點中的大多數(shù)都聚集在中間,而很少的點分散在左側(cè)和右側(cè)。(建議僅使用10個數(shù)據(jù)點來進行這種決策是不明智的,但是鑒于我生成了這些數(shù)據(jù)點,我們將繼續(xù)使用它。)
回想一下,高斯分布具有2個參數(shù)。平均值μ和標(biāo)準(zhǔn)偏差σ。這些參數(shù)的不同值會產(chǎn)生不同的曲線(就像上面的直線一樣)。我們想知道哪個曲線最有可能造成我們觀察到的數(shù)據(jù)點?(請參見下圖)。最大似然估計是一種可以找到導(dǎo)致曲線最適合數(shù)據(jù)的μ和σ值的方法。
[圖片上傳失敗...(image-34bae1-1622536173074)]
圖備注:從中得出數(shù)據(jù)的10個數(shù)據(jù)點和可能的高斯分布。f1正態(tài)分布為均值10,方差為2.25(方差等于標(biāo)準(zhǔn)偏差的平方),也稱為f1?N(10,2.25)。f2?N(10,9),f3?N(10,0.25)和f4?N(8,2.25),最大似然的目標(biāo)是找到給出最大分布觀察數(shù)據(jù)概率的分布的參數(shù)值。
我們用上帝視角生成數(shù)據(jù)的真實分布是f1?N(10,2.25),這是上圖中的藍色曲線。
就是我們用正態(tài)分布生成了數(shù)據(jù),然后,用mle去把這個模型反向找出來。
計算最大似然估計
現(xiàn)在我們對什么是最大似然估計有了直觀的了解,我們可以繼續(xù)學(xué)習(xí)如何計算參數(shù)值。我們找到的值稱為最大似然估計(MLE)。
再次,我們將通過一個示例對此進行演示。
假設(shè)這次我們有三個數(shù)據(jù)點(數(shù)據(jù)少一點便于計算),并且我們假設(shè)它們是由高斯分布充分描述的過程生成的。這些點分別是9、9.5和11。我們?nèi)绾斡嬎愀咚狗植鸡毯挺业膮?shù)值的最大似然估計?
我們要計算的是觀測所有數(shù)據(jù)的總概率,即所有觀測數(shù)據(jù)點的聯(lián)合概率分布。為此,我們需要計算一些條件概率,這可能會非常困難。因此,我們將在這里進行第一個假設(shè)。假設(shè)每個數(shù)據(jù)點都是獨立于其他數(shù)據(jù)點生成的。這個假設(shè)使數(shù)學(xué)容易得多。如果事件(即生成數(shù)據(jù)的過程)是獨立的,則觀察所有數(shù)據(jù)的總概率就是分別觀察每個數(shù)據(jù)點的乘積(即邊際概率的乘積)。
由高斯分布生成的觀察單個數(shù)據(jù)點x的概率密度由下式給出:
[圖片上傳失敗...(image-5fd30d-1622536173074)]
符號P(x;μ,σ)中使用的半冒號是為了強調(diào)在其后出現(xiàn)的符號是概率分布的參數(shù)。因此,不應(yīng)將其與條件概率(通常用垂直線表示,例如P(A | B))相混淆。
在我們的示例中,觀察三個數(shù)據(jù)點的總(聯(lián)合)概率密度由下式給出:
[圖片上傳失敗...(image-33a486-1622536173074)]
我們只需要找出導(dǎo)致上述表達式的最大值的μ和σ值即可。
如果您已經(jīng)在數(shù)學(xué)課中討論了微積分,那么您可能會意識到,有一種方法可以幫助我們找到函數(shù)的最大值(和最小值)。這就是所謂的微分。 我們要做的就是找到函數(shù)的導(dǎo)數(shù),將導(dǎo)數(shù)函數(shù)設(shè)置為零,然后重新排列方程式,以使感興趣的參數(shù)成為方程式的主題。而且,我們將獲得參數(shù)的MLE值。我現(xiàn)在將完成這些步驟,但是我假設(shè)讀者知道如何對常用功能進行區(qū)分。如果您需要更詳細的說明,請在評論中告訴我。
對數(shù)似然
上面關(guān)于總概率的表達式實際上很難區(qū)分,因此幾乎總是通過采用表達式的自然對數(shù)來簡化它。這是絕對好的,因為自然對數(shù)是單調(diào)遞增的函數(shù)。這意味著,如果x軸上的值增加,則y軸上的值也會增加(請參見下圖)。這很重要,因為它確保了概率對數(shù)的最大值與原始概率函數(shù)出現(xiàn)在同一點。因此,我們可以使用更簡單的對數(shù)可能性而不是原始可能性。
[圖片上傳失敗...(image-77e204-1622536173074)]
圖備注:原始函數(shù)的單調(diào)性,左側(cè)為y = x,對數(shù)函數(shù)y = ln(x)。這些函數(shù)都是單調(diào)的,因為當(dāng)您在x軸上從左向右移動時,y值始終會增加。
[圖片上傳失敗...(image-7c5168-1622536173074)]
圖備注:非單調(diào)函數(shù)的示例,因為當(dāng)您在圖表上從左到右移動時,f(x)的值先升后降,然后再升回。
記錄原始表達式可以給我們:
[圖片上傳失敗...(image-d6a6d5-1622536173074)]
可以使用對數(shù)定律再次簡化此表達式,以獲得:
[圖片上傳失敗...(image-4186e7-1622536173074)]
可以區(qū)分該表達式以找到最大值。在此示例中,我們將找到平均值μ的MLE。為此,我們采用函數(shù)相對于μ的偏導(dǎo)數(shù),得出:
[圖片上傳失敗...(image-3a1b6d-1622536173074)]
最后,將方程式的左側(cè)設(shè)置為零,然后重新排列μ,得出:
[圖片上傳失敗...(image-635b92-1622536173074)]
那里我們有μ的最大似然估計。
快問快答:
是否可以始終以精確的方式解決最大似然估計?
簡短的回答不是。在現(xiàn)實世界中,對數(shù)似然函數(shù)的導(dǎo)數(shù)在分析上仍然很棘手(即,很難/不可能手動區(qū)分函數(shù))。因此,使用諸如Expectation-Maximization算法的迭代方法來查找參數(shù)估計的數(shù)值解??傮w思路還是一樣。那么為什么要最大可能性而不是最大概率呢?
好吧,這只是統(tǒng)計學(xué)家在這么討論(但有充分的理由)。大多數(shù)人傾向于互換使用概率和可能性,但統(tǒng)計學(xué)家和概率理論家將兩者區(qū)分開。通過查看方程式可以最好地突出顯示混淆的原因。
這些表達式是相等的!那么這是什么意思?首先定義P(data;μ,σ)?這意味著“用模型參數(shù)μ和σ觀測數(shù)據(jù)的概率密度”。值得注意的是,我們可以將其概括為任意數(shù)量的參數(shù)和分布。
另一方面,L(μ,σ; data)表示“假設(shè)我們已經(jīng)觀察到大量數(shù)據(jù),則參數(shù)μ和σ取某些值的可能性”。
上式表示,給定參數(shù)的數(shù)據(jù)的概率密度等于給定數(shù)據(jù)的參數(shù)的可能性。但是,盡管這兩個條件相等,但是從根本上講,可能性和概率密度在詢問不同的問題,一個是詢問數(shù)據(jù),另一個是詢問參數(shù)值。這就是為什么將該方法稱為最大似然而非最大概率的原因。
- 最小二乘最小化何時與最大似然估計相同?
最小二乘最小化是另一種在機器學(xué)習(xí)中估計模型參數(shù)值的常用方法。事實證明,當(dāng)如上述示例中那樣將模型假定為高斯模型時,MLE估計等效于最小二乘法。
我們可以直觀地通過理解它們的目標(biāo)來解釋這兩種方法之間的聯(lián)系。對于最小二乘參數(shù)估計,我們希望找到一條使數(shù)據(jù)點和回歸線之間的總平方距離最小的線(請參見下圖)。在最大似然估計中,我們希望最大化數(shù)據(jù)的總概率。如果采用高斯分布,則當(dāng)數(shù)據(jù)點接近平均值時會找到最大概率。由于高斯分布是對稱的,因此這等效于最小化數(shù)據(jù)點和平均值之間的距離。
[圖片上傳失敗...(image-1e84e4-1622536173074)]
感謝您的閱讀。