時(shí)間序列預(yù)測(cè)的評(píng)估指標(biāo)補(bǔ)遺

本文鏈接個(gè)人站 | 簡書 | CSDN
版權(quán)聲明:除特別聲明外,本博客文章均采用 BY-NC-SA 許可協(xié)議。轉(zhuǎn)載請(qǐng)注明出處。

《銷量預(yù)測(cè)中的誤差指標(biāo)分析》一文中,我們介紹了一些時(shí)間序列點(diǎn)預(yù)測(cè)中常用的指標(biāo)。而通過在《為什么需要考慮銷量的隨機(jī)性?》、《報(bào)童問題》《報(bào)童問題的簡單解法》等文中的探討,我們已經(jīng)看到,將需求預(yù)測(cè)的方式從點(diǎn)預(yù)測(cè)改為概率分布預(yù)測(cè),可以有效降低庫存管理的風(fēng)險(xiǎn),獲得更大的期望收益。針對(duì)時(shí)間序列的概率分布預(yù)測(cè),我們也已經(jīng)介紹了 DeepAR、Transformer 等若干深度學(xué)習(xí)模型。那么,該如何評(píng)估概率分布預(yù)測(cè)的效果呢?在《概率預(yù)測(cè)的評(píng)估方法簡介》一文中,我們已經(jīng)介紹了一些通用的概率預(yù)測(cè)的評(píng)估指標(biāo)。在本文中,我們?cè)傺a(bǔ)充介紹幾個(gè)適用于時(shí)間序列的概率預(yù)測(cè)評(píng)估指標(biāo)。

1. Quantile Loss

《分位數(shù)回歸》一文中,我們證明了以最小化分位數(shù)損失作為訓(xùn)練目標(biāo),可以得到分位數(shù)預(yù)測(cè)模型。其實(shí)反過來看,分位數(shù)損失也可以作為概率分布預(yù)測(cè)的評(píng)估指標(biāo)。

Z_t 表示 t 時(shí)刻的真實(shí)值,用 \hat Z_t^\rho 表示概率分布預(yù)測(cè)給出的 t 時(shí)刻的 \rho 分位數(shù),總共預(yù)測(cè) h 步,我們定義 Quantile Loss 為
QL_\rho = 2\sum_{t=1}^{h}(\hat Z_t^\rho-Z_t)\left(\rho I_{\{\hat Z_t^\rho > Z_t\}} - (1-\rho)I_{\{\hat Z_t^\rho \leq Z_t\}}\right)
在此基礎(chǔ)上定義 weighted Quantile Loss 為
wQL_\rho = \frac{QL_\rho}{\sum\limits_{t=1}^h Z_t}
不難發(fā)現(xiàn)取 \rho=0.5 時(shí)
wQL_{0.5}=\frac{\sum_{t=1}^h|\hat Z_t^{0.5}-Z_t|}{ \sum_{t=1}^h Z_t} \equiv wMAPE
wMAPE 是在銷量點(diǎn)預(yù)測(cè)中常用的評(píng)估指標(biāo),現(xiàn)在我們知道它可以看作分位數(shù)損失的一個(gè)特例,或者反過來說,分位數(shù)損失可以看作 wMAPE 的泛化。因此,選擇分位數(shù)損失作為概率分布預(yù)測(cè)的評(píng)估指標(biāo)還有一個(gè)額外的好處,就是可以把點(diǎn)預(yù)測(cè)和概率分布預(yù)測(cè)的評(píng)估統(tǒng)一起來。

2. Coverage

沿用上面的符號(hào),我們定義 Coverage 指標(biāo)為
C_\rho=\frac{1}{h}\sum_{t=1}^h I_{\{\hat Z_t^\rho \geq Z_t\}}
也就是在 h 步預(yù)測(cè)中,真實(shí)值 Z_t 小于等于預(yù)測(cè)的 \rho 分位數(shù) \hat Z_t^\rho 的比例。直觀上來看,如果預(yù)測(cè)得越準(zhǔn),這個(gè)比例應(yīng)該越接近 \rho。

事實(shí)上
\begin{aligned} \mathbb E I_{\{Z^\rho \geq Z \}} &= \int_{-\infty}^{+\infty} I_{\{ Z^\rho \geq z\}} f(z)\mathrm dz \\ &= \int_{-\infty}^{Z^\rho} f(z)\mathrm dz \\ &= F(Z^\rho) \\ &= \rho \end{aligned}
因此,\hat Z_t^\rho\to Z_t^\rho,則 C_\rho\to\rho。

這個(gè)指標(biāo)的優(yōu)勢(shì)是非常直觀。我們可以取多個(gè) \rho,分別計(jì)算 C_\rho,然后作 C_\rho-\rho 圖,如果越靠近直線 y=x,說明預(yù)測(cè)越準(zhǔn)。

3. MSIS (Mean Scaled Interval Score)

這是 M4 比賽的指標(biāo)之一,用來評(píng)估預(yù)測(cè)區(qū)間的好壞。其定義為
MSIS = \frac{\frac{1}{h}\sum_{t=1}^h(\hat U_t-\hat L_t)+\frac{2}{\alpha}(\hat L_t-Z_t)I_{\{Z_t<\hat L_t\}} +\frac{2}{\alpha}(Z_t-\hat U_t)I_{\{Z_t>\hat U_t\}} }{\frac{1}{n-m}\sum_{t=m+1}^n|Z_t-Z_{t-m}|}
其中 \alpha 是顯著性水平,\hat U\hat L 是預(yù)測(cè)區(qū)間的上界和下界。舉例來說,我們給出了 95% 預(yù)測(cè)區(qū)間的上下界,此時(shí) \alpha=0.05。

我們先看分子,第一項(xiàng)懲罰的是上下界之間的間隔,第二項(xiàng)懲罰的是真實(shí)值低于下界的情況,第三項(xiàng)懲罰的是真實(shí)值高于上界的情況。單看分子很好理解,直觀上就是要用盡可能窄的區(qū)間把真實(shí)值“包”進(jìn)去。

那么分母是個(gè)什么玩意兒呢?它實(shí)際上借鑒自點(diǎn)預(yù)測(cè)的一種評(píng)估指標(biāo),MASE (Mean Absolute Scaled Error)。
MASE = \frac{\frac{1}{h}\sum_{t=1}^h|\hat Z_t-Z_t|}{\frac{1}{n-m}\sum_{t=m+1}^n|Z_t-Z_{t-m}|}
MASE 實(shí)際上是用測(cè)試集上的 MAE 除以一個(gè) Na?ve 預(yù)測(cè)模型在訓(xùn)練集上的 MAE。所謂的 Na?ve 模型,有兩種情況,對(duì)于非周期性序列,則預(yù)測(cè) \hat Z_{t+1|t}=Z_t;對(duì)于周期性序列,設(shè)周期為 m,則預(yù)測(cè) \hat Z_{t+1|t}=Z_{t-m}。MASE 的意義在于,所有的模型都來跟 Na?ve 模型比一比,看看能比它好出多少。

總之需要注意的是,MASE 和 MSIS 的分母是用訓(xùn)練集來計(jì)算的。

4. CRPS (Continuous Ranked Probability Score)

這個(gè)指標(biāo)我們?cè)?a href="http://m.itdecent.cn/p/b7ef3a3a2cf0" target="_blank">《概率預(yù)測(cè)的評(píng)估方法簡介》中已經(jīng)介紹過了,它也是概率預(yù)測(cè)中使用最廣泛的指標(biāo)之一,它的定義如下:
CRPS(F^f, F^o) = \int_{-\infty}^{+\infty}\left[F^f(x)-F^o(x)\right]^2\mathrm dx
其中 F^f 是預(yù)測(cè)分布的 CDF,F^o 是觀測(cè)值的 CDF。由定義可知,CRPS 衡量的是預(yù)測(cè)分布和真實(shí)分布的差異,當(dāng)預(yù)測(cè)分布與真實(shí)分布完全一致時(shí),CRPS 為零。預(yù)測(cè)分布過于集中、過于分散,亦或是偏離觀測(cè)值太遠(yuǎn)都會(huì)導(dǎo)致 CRPS 增大。

問題在于,在我們的場(chǎng)景下,每天的銷量只會(huì)發(fā)生一次——我們不能看到某一件商品在多元宇宙中的銷量——無法給出觀測(cè)值的 CDF。這種情況下,可以用下面的式子來估算
CRPS = \frac{1}{h}\sum_{t=1}^{h}\int_{-\infty}^{\infty}\left[F_t(x)-\epsilon(x-Z_t)\right]^2\mathrm dx
其中
\epsilon(t)= \begin{cases} 0, \qquad t < 0\\ 1, \qquad t\geq 0 \end{cases}
為單位階躍函數(shù)。

前面已經(jīng)提到分位數(shù)損失可以看作 wMAPE 的泛化。事實(shí)上,這種定義下的 CRPS 也可以看作是點(diǎn)預(yù)測(cè)中常見的 MAE 指標(biāo)的泛化,這也是為什么我們要在這里炒冷飯。如果我們輸出的僅僅是一個(gè)點(diǎn)預(yù)測(cè) \hat Z_t,則它的 CDF 也只能使用單位階躍函數(shù)近似為 F_t(x) = \epsilon(x-\hat Z_t)。代入到 CRPS 的定義中,可以發(fā)現(xiàn)
\begin{aligned} CRPS &= \frac{1}{h}\sum_{t=1}^{h}\int_{-\infty}^{\infty}\left[\epsilon(x-\hat Z_t)-\epsilon(x-Z_t)\right]^2\mathrm dx\\ &= \frac{1}{h}\sum_{t=1}^{h}\int_{\min(\hat Z_t, Z_t)}^{\max(\hat Z_t, Z_t)}1^2\mathrm dx\\ &= \frac{1}{h}\sum_{t=1}^{h}|\hat Z_t - Z_t|\\ &\equiv MAE \end{aligned}

CRPS 評(píng)估的是分布整體的情況,而不是某個(gè)分位數(shù),這是它的優(yōu)勢(shì)。這也意味著模型必需能夠輸出累積分布函數(shù)。與分位數(shù)損失類似,CRPS 也可以將點(diǎn)預(yù)測(cè)和概率分布預(yù)測(cè)的評(píng)估統(tǒng)一起來,但是 MAE 并不像 wMAPE 應(yīng)用得那么頻繁。

參考文獻(xiàn)

  1. Salinas D, Flunkert V, Gasthaus J, et al. DeepAR: Probabilistic forecasting with autoregressive recurrent networks[J]. International Journal of Forecasting, 2019.
  2. M4 Competitor's Guide
  3. Mean absolute scaled error - Wikipedia
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容