歸類分析 GPS 以預(yù)測(cè)車輛停留意圖信息

原文:Stop purpose classification from GPS data of commercial vehicle fleets
作者:Sarti L, Bravi L, Sambo F.
來(lái)源:Data Mining Workshops, 2017 IEEE International Conference on. IEEE, 2017: 280-287.
轉(zhuǎn)載:簡(jiǎn)書不支持公式渲染,便于閱讀可參考 原博文。

摘要

從原始 GPS (全球定位系統(tǒng)) 數(shù)據(jù)中提取 汽車停靠意圖數(shù)據(jù) 是大多數(shù)位置感知應(yīng)用程序中的關(guān)鍵任務(wù),且隨著從移動(dòng)設(shè)備收集 GPS 數(shù)據(jù)的不斷增長(zhǎng),這項(xiàng)任務(wù)變得越來(lái)越有趣。近期很多研究都集中在行人 (手機(jī)) 數(shù)據(jù)上 (可理解為紅海市場(chǎng)),而商用車領(lǐng)域幾乎沒(méi)有探索 (藍(lán)海市場(chǎng))。

在本論文中,針對(duì)車輛 GPS 數(shù)據(jù)的汽車??恳鈭D的 識(shí)別分類 問(wèn)題 (利用來(lái)自不同行業(yè)的商業(yè)車隊(duì)的大型異構(gòu)數(shù)據(jù)集),按照意圖分類,旨在把汽車??奎c(diǎn)分類為:工作相關(guān)非工作相關(guān),以挖掘相關(guān)商業(yè)價(jià)值。

還對(duì)每個(gè)汽車??奎c(diǎn)計(jì)算一組含 100 個(gè)不同特征的集合,特征可分為四個(gè)主要類別:汽車停靠點(diǎn)特征,興趣點(diǎn)特征,汽車停靠點(diǎn)集群特征序列特征。并組合四組特征,加入訓(xùn)練,通過(guò)隨機(jī)森林分類模型,我們得以評(píng)估四組特征中每個(gè)特征的相對(duì)重要性。

強(qiáng)特征可有效地提升分類模型的精度。

實(shí)驗(yàn)結(jié)果表明,本論文的方法顯著地超越了現(xiàn)有商業(yè)車輛背景下用于汽車??恳鈭D的分類模型。

正文

引入

在過(guò)去的十年中,GPS 設(shè)備的巨大推廣,使得人們?cè)桨l(fā)關(guān)注 數(shù)據(jù)挖掘算法時(shí)空數(shù)據(jù) (GPS 產(chǎn)生的數(shù)據(jù)) 中的應(yīng)用。而許多實(shí)際應(yīng)用需要使用關(guān)于 用戶行為地理位置的語(yǔ)義信息。例如,下述的兩個(gè)實(shí)例:

  • 基于用戶的歷史位置以衡量用戶之間的相似度 ^{[1]}
  • 基于位置的興趣地點(diǎn)推薦系統(tǒng) ^{[2]}。

語(yǔ)義標(biāo)記 GPS 數(shù)據(jù),目標(biāo)旨在 識(shí)別歸類 GPS 沿途軌跡上的位置信息,即具體工作有 語(yǔ)義位置的偵察汽車停靠或出游的意圖歸類。盡管上述問(wèn)題不是同一類型的問(wèn)題,但卻是強(qiáng)相關(guān)的。例如,對(duì)多個(gè)用戶而言具有相同意圖的共同定位點(diǎn),可能是語(yǔ)義上相關(guān)聯(lián)的地方,因?yàn)橹滥硞€(gè)地方的語(yǔ)義對(duì)分類每個(gè)汽車停靠點(diǎn)意圖有很大的幫助。

通常,對(duì)于上述 識(shí)別歸類 問(wèn)題的解決方法分兩個(gè)階段執(zhí)行:

  • 偵查興趣地點(diǎn):通常以非監(jiān)督的方式實(shí)現(xiàn)位置偵查 ^{[3,4]},而作者提出了基于 DBSCAN ^{[5\,or\,6]} 的修改版本的聚類算法,或者利用層次聚類從汽車??课恢弥刑崛≡L問(wèn)點(diǎn)。

    當(dāng)要處理非常大的數(shù)據(jù)集時(shí)需要考慮計(jì)算性能的問(wèn)題,可參考其他論文中的擴(kuò)展方法,例如對(duì)地點(diǎn)坐標(biāo)進(jìn)行哈希散列法 ^{[7,8]}。

  • 對(duì)偵查到的地點(diǎn)分類:對(duì)有關(guān)地點(diǎn)或汽車停靠點(diǎn)進(jìn)行分類,可以在文獻(xiàn)中找到兩種主要方法:

    • 基于規(guī)則的系統(tǒng) ^{[9,10]},其主要依賴于活動(dòng)的位置、土地利用的數(shù)據(jù)以及機(jī)器學(xué)習(xí)方法,即活動(dòng)本身提取特征;

    • 利用 SVM 分類器來(lái)區(qū)分標(biāo)識(shí)位置內(nèi)的活動(dòng)??奎c(diǎn)和非活動(dòng)??奎c(diǎn)。分類器 (SVM,隨機(jī)森林或邏輯回歸) 利用時(shí)間和空間特征 ^{[6]},以及隱馬爾可夫模型 (HMM) 利用時(shí)序特征把這些汽車停靠點(diǎn)分類為預(yù)定義類型。

      1. SVM 提取三個(gè)主要特征:停車駐留時(shí)間,每個(gè)汽車??康囟沃車狞c(diǎn)到質(zhì)心的平均距離。
      2. 地點(diǎn)的語(yǔ)義分類是基于 GPS 數(shù)據(jù)和衛(wèi)星圖像的組合而定的 ^{[8]}

最后,本論文解決了與參考文獻(xiàn) [7] 的同樣問(wèn)題,即利用四個(gè)不同的特征集,使用一個(gè)隨機(jī)森林分類器,對(duì)商業(yè)車隊(duì)的汽車停靠意圖數(shù)據(jù)進(jìn)行分類建模。且本文的主要貢獻(xiàn)如下:

  • 描述了一種方法,即從 GPS Pings (GPS 定位儀) 中提取汽車??奎c(diǎn)信息,并從運(yùn)作狀態(tài)的停車時(shí)間表 ( 已知的地點(diǎn)信息 ) 中給它們分配地面實(shí)況標(biāo)簽,實(shí)際是 標(biāo)注標(biāo)簽的過(guò)程;
  • 基于以上帶標(biāo)簽的數(shù)據(jù)集,建立模型自動(dòng)分類 汽車??奎c(diǎn),即區(qū)分工作相關(guān)和非工作相關(guān)的??奎c(diǎn);
  • 提供了嚴(yán)格評(píng)估的多類型 特征集,便于我們處理問(wèn)題 (提高分類精確度),其中包括:
    • 汽車停靠點(diǎn)特征 (Stop-wise features,SWF);
    • 興趣點(diǎn)特征 (Points of interest features,POIF);
    • ??奎c(diǎn)集群特征 (Stop Cluster,CF);
    • 序列特征 (Sequential features,SeqF).

方法

GPS 和工單數(shù)據(jù)的定義

  • 本論文采用的數(shù)據(jù)集由 Fleetmatics 公司 (車隊(duì)情報(bào)公司) 提供。
  • 采集的數(shù)據(jù)有兩種類型,分別是 原始 GPS Pings 數(shù)據(jù)工單數(shù)據(jù)。
    • 原始 GPS Pings 數(shù)據(jù)
      • 提供有關(guān)車輛位置的信息、工單狀態(tài)的信息、有關(guān)司機(jī)執(zhí)行工作的進(jìn)度信息;
      • 設(shè)定有一系列的 GPS Pings \{P_i\}_{i=1}^n = \{P_1, ..., P_n\} 分別描述每輛車行駛的路線。
      • 每一個(gè) GPS Ping P_i 包含每輛車的狀態(tài)信息,即有車輛 ID v_i,經(jīng)度和緯度 (位置信息 p_i),里程表 d_i,時(shí)間戳 t_i 和 事件代碼 e_i
    • 工單數(shù)據(jù)
      • 設(shè)定有一系列的工單 \{W_i\}_{i=1}^n = \{W_1, ..., W_n\}。
      • 每一個(gè)工單包含的信息有:車輛 ID v_i,經(jīng)度和緯度 (位置 p_i),時(shí)間戳 t_i 和 狀態(tài)代碼 c_i (例如:掛起,啟動(dòng),完成)。

偵查車輛??繝顟B(tài)的方法

正如上述所描述的,關(guān)于瞬時(shí)車輛位置的原始數(shù)據(jù)是由 GPS Ping 組成的,將它們匯集起來(lái)以描述車輛的活動(dòng)。為此本論文開(kāi)發(fā)了一個(gè) 時(shí)空聚類程序。

  • 首先得為每個(gè) GPS 信息分配一種狀態(tài)類型 (Engine off,iDling,Journey),然后把它們聚集成 GPS Ping 群組,并把這個(gè) GPS Ping 群組稱為 汽車??奎c(diǎn)集。

  • GPS Ping 的狀態(tài)可分為三種類型:

    • Engine Off (發(fā)動(dòng)機(jī)關(guān)閉狀態(tài)):發(fā)動(dòng)機(jī)關(guān)閉事件。即這些 Ping 在發(fā)動(dòng)機(jī)關(guān)閉的瞬間產(chǎn)生的 (當(dāng)發(fā)動(dòng)機(jī)處于關(guān)閉狀態(tài)時(shí)不發(fā)送 Ping);
    • iDling (空轉(zhuǎn)/怠速狀態(tài)):發(fā)動(dòng)機(jī)處于開(kāi)啟狀態(tài),但車輛靜止或車輛在小區(qū)域內(nèi)仍然緩慢行駛。對(duì)于后者,我們還需要作一些約束,設(shè)定 H(p_i,p_{i-1}) 表示兩點(diǎn)間的半正定距離。然后,對(duì)于給定車輛給予一對(duì)連續(xù)的 Ping P_i\,and\,P_{i-1},且滿足以下約束,則可定義為怠速:
      • s_i = H(p_i,p_{i-1})\,/\,(t_i - t_{i-1}) \leq 1.4\,m/s\,(5km/h),確定速度接近零;
      • H(p_i,p_{i-1}) \leq 150\,m,確保 P_{i-1}\,and\,P_i 足夠接近,且避免了由于丟失數(shù)據(jù)而產(chǎn)生的 偽影。
    • Journey (行駛狀態(tài)):即不是發(fā)動(dòng)機(jī)關(guān)閉狀態(tài),也不是怠速狀態(tài)。
  • 當(dāng) Ping 被分類后,以每輛車為單位,按時(shí)間順序排序;并把所有連續(xù)的怠速狀態(tài)和發(fā)動(dòng)機(jī)關(guān)閉狀態(tài)的 Ping 聚集成集群 (并不會(huì)被其中 Journey 狀態(tài)的 Ping 給分割開(kāi)來(lái))。

  • 由于丟失數(shù)據(jù),導(dǎo)致一組連續(xù)的怠速狀態(tài) Ping 彼此相對(duì)較遠(yuǎn)地分布開(kāi)來(lái)。故我們得重新執(zhí)行 時(shí)間-空間 的約束條件 (s_i \leq 1.4\,m/s and H(p_i,p_{i-1}) \leq 150\,m)。

    無(wú)法滿足約束條件:即一組連續(xù)的怠速狀態(tài) Ping 將被分隔得很遠(yuǎn),其中的 Journey 狀態(tài)的 Ping 都給丟失了。

  • 以這種方式創(chuàng)建的 Pings 集群 代表我們想要分類的 已標(biāo)識(shí)汽車??奎c(diǎn)。綜上所述,汽車停靠點(diǎn)被定義為按時(shí)間順序排序的 Pings 集群 (包含怠速狀態(tài)或發(fā)動(dòng)機(jī)關(guān)閉狀態(tài)的 Pings,并且滿足進(jìn)一步的 時(shí)間-空間 約束條件。

  • 每個(gè) 汽車??奎c(diǎn) 都有幾個(gè)特性 ( 通過(guò)計(jì)算其中的 Ping ):Ping 的數(shù)量,??奎c(diǎn)的起點(diǎn)和終點(diǎn) ( 屬于該停靠點(diǎn)的 Ping 的第一個(gè)和最后一個(gè)時(shí)間戳 ),駐留時(shí)間 ( 屬于該停靠點(diǎn)的起始時(shí)間和結(jié)束時(shí)間 ) 和形狀 ( 由GPS消息的最大 (最小) 緯度/經(jīng)度坐標(biāo)定義 )。

  • 所有這些信息對(duì)于在第二階段提取特征工作至關(guān)重要,即汽車停靠點(diǎn)意圖的分類。

標(biāo)注標(biāo)簽

  • 首先,對(duì)上述程序中獲得的汽車??奎c(diǎn)分配 地面實(shí)況標(biāo)簽。
  • 再者,將它們與 工單數(shù)據(jù) 進(jìn)行匹配。一般來(lái)說(shuō),若車輛停留點(diǎn)在時(shí)間上和空間上與工單數(shù)據(jù) W_i 相匹配,則可認(rèn)為該汽車停靠點(diǎn)就是該工單數(shù)據(jù)。
    • 空間匹配:對(duì)于只包含 idling 和 engine off 狀態(tài)的??奎c(diǎn),我們認(rèn)為它滿足空間上的匹配。
    • 時(shí)間匹配:對(duì)于任何工單,空間上匹配了停留點(diǎn);如果停留點(diǎn)的駐留時(shí)間與工單的時(shí)間項(xiàng) (指示作業(yè)已啟動(dòng)的時(shí)間和指示服務(wù)已結(jié)束的時(shí)間) 間隔相交,時(shí)間的匹配也隨著滿足。

分類特征

車輛??總刹榧夹g(shù) 章節(jié)中描述的,從一系列的 GPS Pings 提取汽車??奎c(diǎn),并從中提取 100 個(gè)不同的特征用于訓(xùn)練隨機(jī)森林模型,隨之將這些特征劃分為 4 個(gè)不同的組:

  • 汽車停靠點(diǎn)特征 ( Stop-wise features,SWF ):

    • 駐留時(shí)間:(汽車) ??奎c(diǎn)第一個(gè)和最后一個(gè) Ping 的時(shí)間差。

    • 開(kāi)始時(shí)間特征:一天中的小時(shí),一周中的某天,某月某日,某年某日等。

      是否統(tǒng)一時(shí)間表示方式 (時(shí)間戳): yyyy-MM-dd HH:mm

    • 關(guān)閉引擎所花費(fèi)的時(shí)間:對(duì)于每一個(gè)引擎關(guān)閉事件,我們計(jì)算當(dāng)前 Ping 與前一個(gè)非引擎關(guān)閉狀態(tài)的 Ping 之間的時(shí)間差,以表示引擎啟動(dòng)的時(shí)間。由于每個(gè)??奎c(diǎn)包含多個(gè)引擎關(guān)閉狀態(tài)的 Ping,我們需要使用幾個(gè)聚合函數(shù)聚合取得結(jié)果。

    • 形狀:??奎c(diǎn)的寬度、高度、面積、比例。

    • ??奎c(diǎn)類型:發(fā)動(dòng)機(jī)關(guān)閉狀態(tài)。

    • ??奎c(diǎn)中發(fā)動(dòng)機(jī)關(guān)閉狀態(tài) Ping 的數(shù)量。

    • 里程表距離:從第一次 Ping 到最后一次 Ping 的里程表距離。

    • ??奎c(diǎn)內(nèi) Ping 的總數(shù)。

    • 平均速度 (根據(jù)停留點(diǎn)中第一次和最后一次 Ping 之間的里程差除以駐留時(shí)間計(jì)算所得)。

  • 興趣點(diǎn)特征 ( Points of interest features,POIF):利用 PTV xLocate Server 中提取以下 POI 類型:

    • 銀行;
    • 大學(xué);
    • 酒店;
    • 餐廳;
    • 休息區(qū);
    • 雜貨店;
    • 學(xué)校;
    • 購(gòu)物中心;
    • 汽油;
    • 開(kāi)放式停車場(chǎng);
  • 汽車??奎c(diǎn)集群特征 ( Stop cluster features,CF ):描述當(dāng)前停靠點(diǎn)集周圍停靠點(diǎn)的特征所組成的特征集。其原理是,存在一些工作狀態(tài)的工單和非工作狀態(tài)的工單數(shù)據(jù),趨向于聚類成簇。類似于 [7] 中提出的熵度量方法:對(duì)于每個(gè)??奎c(diǎn),查看并收集 250 米半徑內(nèi)的周邊環(huán)繞的??奎c(diǎn)數(shù)據(jù)。

    • 車輛熵,計(jì)算公式為:

    E_v = - \sum_{\nu \in V} \frac{n_{\nu}}{N} ln(\frac{n_{\nu}}{N}) \tag{1}

    V 是車隊(duì)中的車輛集合, N 是 250 米半徑范圍內(nèi)車隊(duì)所有車輛的總停留點(diǎn)數(shù),n_{\nu} 是車輛 \nu 在同一區(qū)域停靠的總次數(shù)。這個(gè)熵度量給出了一個(gè)區(qū)域內(nèi)同一車隊(duì)車輛的多樣性。

    • 簇中汽車??奎c(diǎn)的平均,總和,最大和最小駐留時(shí)間。
    • 鄰近汽車停靠點(diǎn)的數(shù)量 (在其質(zhì)心250米半徑以內(nèi))。
  • 序列特征 (Sequential features,SeqF):

    • 工作日內(nèi)停車的次序位置:同一輛車在白天按照停車先后順序的 (歸一化的) 相對(duì)位置。
    • 停車所涵蓋的時(shí)間百分比:停車行為在工作日中的時(shí)間占比 ( 注意該值與工作日的開(kāi)始相關(guān),且工作日的開(kāi)始由一天中第一個(gè) Ping 定義 )。這也是司機(jī)夜間休息時(shí)間的近似假設(shè)。

實(shí)驗(yàn)

實(shí)驗(yàn)過(guò)程請(qǐng)參考原文獻(xiàn),篇幅問(wèn)題就不照搬文章內(nèi)容了。

總結(jié)

  • 本文基于商用車隊(duì)的 GPS 數(shù)據(jù)研究了停車目的識(shí)別和分類問(wèn)題。
  • 為了建立地面真實(shí)數(shù)據(jù)集,通過(guò)查看考慮到每輛車的工作單進(jìn)度數(shù)據(jù),開(kāi)發(fā)了一個(gè)時(shí)空聚類算法,實(shí)現(xiàn)了一個(gè)自動(dòng)標(biāo)注標(biāo)簽過(guò)程;
  • 為了提高分類精確度,從 GPS Ping 數(shù)據(jù)中提取了 4 組不同的特征 ( SWF、POIF、CF 和 SeqF );
  • 利用提取的特征訓(xùn)練隨機(jī)森林模型,并與兩種基線模型進(jìn)行性能比較。實(shí)驗(yàn)結(jié)果表明,本文提取總結(jié)的 4 組特征顯著提高了隨機(jī)森林的分類能力。

不足

  • 在車輛??奎c(diǎn)偵查技術(shù)章節(jié)中,使用的是非監(jiān)督方式的算法,即基于密度的 DBSCAN 聚類算法。其中涉及密度閾值的設(shè)定多少問(wèn)題,就需要對(duì)具體樣本量進(jìn)行考究才能決定。
  • 數(shù)據(jù)集是否可用于處理多分類問(wèn)題。例如,通過(guò)擴(kuò)大標(biāo)簽集以包含更具體的停車類型,而不僅僅限制于二元標(biāo)簽 ( 工作狀態(tài)與非工作狀態(tài) )。

參考

[1] Horozov T, Narasimhan N, Vasudevan V. Using location for personalized POI recommendations in mobile environments [C]//Applications and the internet, 2006. SAINT 2006. International symposium on. IEEE, 2006: 6 pp.-129.
[2] Jiang K, Yin H, Wang P, et al. Learning from contextual information of geo-tagged web photos to rank personalized tourism attractions [J]. Neurocomputing, 2013, 119: 17-25.
[3] Palma A T, Bogorny V, Kuijpers B, et al. A clustering-based approach for discovering interesting places in trajectories [C]//Proceedings of the 2008 ACM symposium on Applied computing. ACM, 2008: 863-868.
[4] Gong L, Sato H, Yamamoto T, et al. Identification of activity stop locations in GPS trajectories by density-based clustering method combined with support vector machines [J]. Journal of Modern Transportation, 2015, 23(3): 202-213.
[5] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise [C]//Kdd. 1996, 96(34): 226-231.
[6] Lv M, Chen L, Xu Z, et al. The discovery of personally semantic places based on trajectory data mining [J]. Neurocomputing, 2016, 173: 1142-1153.
[7] Gingerich K, Maoh H, Anderson W. Classifying the purpose of stopped truck events: An application of entropy to GPS data [J]. Transportation Research Part C: Emerging Technologies, 2016, 64: 17-27.
[8] Sambo F, Salti S, Bravi L, et al. Integration of GPS and satellite images for detection and classification of fleet hotspots [C]//Intelligent Transportation Systems (ITSC), 2017 IEEE 20th International Conference on. IEEE, 2017: 1-6.
[9] Wolf J, Guensler R, Bachman W. Elimination of the travel diary: Experiment to derive trip purpose from global positioning system travel data [J]. Transportation Research Record: Journal of the Transportation Research Board, 2001 (1768): 125-134.
[10] Bohte W, Maat K. Deriving and validating trip purposes and travel modes for multi-day GPS-based travel surveys: A large-scale application in the Netherlands [J]. Transportation Research Part C: Emerging Technologies, 2009, 17(3): 285-297.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容