原文:Stop purpose classification from GPS data of commercial vehicle fleets
作者:Sarti L, Bravi L, Sambo F.
來(lái)源:Data Mining Workshops, 2017 IEEE International Conference on. IEEE, 2017: 280-287.
轉(zhuǎn)載:簡(jiǎn)書不支持公式渲染,便于閱讀可參考 原博文。
摘要
從原始 GPS (全球定位系統(tǒng)) 數(shù)據(jù)中提取 汽車停靠意圖數(shù)據(jù) 是大多數(shù)位置感知應(yīng)用程序中的關(guān)鍵任務(wù),且隨著從移動(dòng)設(shè)備收集 GPS 數(shù)據(jù)的不斷增長(zhǎng),這項(xiàng)任務(wù)變得越來(lái)越有趣。近期很多研究都集中在行人 (手機(jī)) 數(shù)據(jù)上 (可理解為紅海市場(chǎng)),而商用車領(lǐng)域幾乎沒(méi)有探索 (藍(lán)海市場(chǎng))。
在本論文中,針對(duì)車輛 GPS 數(shù)據(jù)的汽車??恳鈭D的 識(shí)別 和 分類 問(wèn)題 (利用來(lái)自不同行業(yè)的商業(yè)車隊(duì)的大型異構(gòu)數(shù)據(jù)集),按照意圖分類,旨在把汽車??奎c(diǎn)分類為:工作相關(guān) 和 非工作相關(guān),以挖掘相關(guān)商業(yè)價(jià)值。
還對(duì)每個(gè)汽車??奎c(diǎn)計(jì)算一組含 100 個(gè)不同特征的集合,特征可分為四個(gè)主要類別:汽車停靠點(diǎn)特征,興趣點(diǎn)特征,汽車停靠點(diǎn)集群特征 和 序列特征。并組合四組特征,加入訓(xùn)練,通過(guò)隨機(jī)森林分類模型,我們得以評(píng)估四組特征中每個(gè)特征的相對(duì)重要性。
強(qiáng)特征可有效地提升分類模型的精度。
實(shí)驗(yàn)結(jié)果表明,本論文的方法顯著地超越了現(xiàn)有商業(yè)車輛背景下用于汽車??恳鈭D的分類模型。
正文
引入
在過(guò)去的十年中,GPS 設(shè)備的巨大推廣,使得人們?cè)桨l(fā)關(guān)注 數(shù)據(jù)挖掘算法 在 時(shí)空數(shù)據(jù) (GPS 產(chǎn)生的數(shù)據(jù)) 中的應(yīng)用。而許多實(shí)際應(yīng)用需要使用關(guān)于 用戶行為 和 地理位置的語(yǔ)義信息。例如,下述的兩個(gè)實(shí)例:
- 基于用戶的歷史位置以衡量用戶之間的相似度
;
- 基于位置的興趣地點(diǎn)推薦系統(tǒng)
。
語(yǔ)義標(biāo)記 GPS 數(shù)據(jù),目標(biāo)旨在 識(shí)別 和 歸類 GPS 沿途軌跡上的位置信息,即具體工作有 語(yǔ)義位置的偵察 和 汽車停靠或出游的意圖歸類。盡管上述問(wèn)題不是同一類型的問(wèn)題,但卻是強(qiáng)相關(guān)的。例如,對(duì)多個(gè)用戶而言具有相同意圖的共同定位點(diǎn),可能是語(yǔ)義上相關(guān)聯(lián)的地方,因?yàn)橹滥硞€(gè)地方的語(yǔ)義對(duì)分類每個(gè)汽車停靠點(diǎn)意圖有很大的幫助。
通常,對(duì)于上述 識(shí)別 和 歸類 問(wèn)題的解決方法分兩個(gè)階段執(zhí)行:
-
偵查興趣地點(diǎn):通常以非監(jiān)督的方式實(shí)現(xiàn)位置偵查,而作者提出了基于
DBSCAN的修改版本的聚類算法,或者利用層次聚類從汽車??课恢弥刑崛≡L問(wèn)點(diǎn)。
當(dāng)要處理非常大的數(shù)據(jù)集時(shí)需要考慮計(jì)算性能的問(wèn)題,可參考其他論文中的擴(kuò)展方法,例如對(duì)地點(diǎn)坐標(biāo)進(jìn)行哈希散列法
。
-
對(duì)偵查到的地點(diǎn)分類:對(duì)有關(guān)地點(diǎn)或汽車停靠點(diǎn)進(jìn)行分類,可以在文獻(xiàn)中找到兩種主要方法:基于規(guī)則的系統(tǒng)
,其主要依賴于活動(dòng)的位置、土地利用的數(shù)據(jù)以及機(jī)器學(xué)習(xí)方法,即活動(dòng)本身提取特征;
-
利用 SVM 分類器來(lái)區(qū)分標(biāo)識(shí)位置內(nèi)的活動(dòng)??奎c(diǎn)和非活動(dòng)??奎c(diǎn)。分類器 (SVM,隨機(jī)森林或邏輯回歸) 利用時(shí)間和空間特征
,以及隱馬爾可夫模型 (HMM) 利用時(shí)序特征把這些汽車停靠點(diǎn)分類為預(yù)定義類型。
- SVM 提取三個(gè)主要特征:停車駐留時(shí)間,每個(gè)汽車??康囟沃車狞c(diǎn)到質(zhì)心的平均距離。
- 地點(diǎn)的語(yǔ)義分類是基于 GPS 數(shù)據(jù)和衛(wèi)星圖像的組合而定的
。
最后,本論文解決了與參考文獻(xiàn) [7] 的同樣問(wèn)題,即利用四個(gè)不同的特征集,使用一個(gè)隨機(jī)森林分類器,對(duì)商業(yè)車隊(duì)的汽車停靠意圖數(shù)據(jù)進(jìn)行分類建模。且本文的主要貢獻(xiàn)如下:
- 描述了一種方法,即從 GPS Pings (GPS 定位儀) 中提取汽車??奎c(diǎn)信息,并從運(yùn)作狀態(tài)的停車時(shí)間表 ( 已知的地點(diǎn)信息 ) 中給它們分配地面實(shí)況標(biāo)簽,實(shí)際是
標(biāo)注標(biāo)簽的過(guò)程; - 基于以上帶標(biāo)簽的數(shù)據(jù)集,
建立模型,自動(dòng)分類汽車??奎c(diǎn),即區(qū)分工作相關(guān)和非工作相關(guān)的??奎c(diǎn); - 提供了嚴(yán)格評(píng)估的多類型
特征集,便于我們處理問(wèn)題 (提高分類精確度),其中包括:- 汽車停靠點(diǎn)特征 (Stop-wise features,SWF);
- 興趣點(diǎn)特征 (Points of interest features,POIF);
- ??奎c(diǎn)集群特征 (Stop Cluster,CF);
- 序列特征 (Sequential features,SeqF).
方法
GPS 和工單數(shù)據(jù)的定義
- 本論文采用的數(shù)據(jù)集由 Fleetmatics 公司 (車隊(duì)情報(bào)公司) 提供。
- 采集的數(shù)據(jù)有兩種類型,分別是
原始 GPS Pings 數(shù)據(jù)和工單數(shù)據(jù)。- 原始 GPS Pings 數(shù)據(jù)
- 提供有關(guān)車輛位置的信息、工單狀態(tài)的信息、有關(guān)司機(jī)執(zhí)行工作的進(jìn)度信息;
- 設(shè)定有一系列的 GPS Pings
分別描述每輛車行駛的路線。
- 每一個(gè) GPS Ping
包含每輛車的狀態(tài)信息,即有車輛 ID
,經(jīng)度和緯度 (位置信息
),里程表
,時(shí)間戳
和 事件代碼
。
- 工單數(shù)據(jù)
- 設(shè)定有一系列的工單
。
- 每一個(gè)工單包含的信息有:車輛 ID
,經(jīng)度和緯度 (位置
),時(shí)間戳
和 狀態(tài)代碼
(例如:掛起,啟動(dòng),完成)。
- 設(shè)定有一系列的工單
- 原始 GPS Pings 數(shù)據(jù)
偵查車輛??繝顟B(tài)的方法
正如上述所描述的,關(guān)于瞬時(shí)車輛位置的原始數(shù)據(jù)是由 GPS Ping 組成的,將它們匯集起來(lái)以描述車輛的活動(dòng)。為此本論文開(kāi)發(fā)了一個(gè) 時(shí)空聚類程序。
首先得為每個(gè) GPS 信息分配一種狀態(tài)類型 (Engine off,iDling,Journey),然后把它們聚集成 GPS Ping 群組,并把這個(gè) GPS Ping 群組稱為
汽車??奎c(diǎn)集。-
GPS Ping 的狀態(tài)可分為三種類型:
-
Engine Off (發(fā)動(dòng)機(jī)關(guān)閉狀態(tài)):發(fā)動(dòng)機(jī)關(guān)閉事件。即這些 Ping 在發(fā)動(dòng)機(jī)關(guān)閉的瞬間產(chǎn)生的 (當(dāng)發(fā)動(dòng)機(jī)處于關(guān)閉狀態(tài)時(shí)不發(fā)送 Ping); -
iDling (空轉(zhuǎn)/怠速狀態(tài)):發(fā)動(dòng)機(jī)處于開(kāi)啟狀態(tài),但車輛靜止或車輛在小區(qū)域內(nèi)仍然緩慢行駛。對(duì)于后者,我們還需要作一些約束,設(shè)定表示兩點(diǎn)間的半正定距離。然后,對(duì)于給定車輛給予一對(duì)連續(xù)的 Ping
,且滿足以下約束,則可定義為怠速:
-
,確定速度接近零;
-
,確保
足夠接近,且避免了由于丟失數(shù)據(jù)而產(chǎn)生的
偽影。
-
-
Journey (行駛狀態(tài)):即不是發(fā)動(dòng)機(jī)關(guān)閉狀態(tài),也不是怠速狀態(tài)。
-
當(dāng) Ping 被分類后,以每輛車為單位,按時(shí)間順序排序;并把所有連續(xù)的怠速狀態(tài)和發(fā)動(dòng)機(jī)關(guān)閉狀態(tài)的 Ping 聚集成集群 (并不會(huì)被其中 Journey 狀態(tài)的 Ping 給分割開(kāi)來(lái))。
-
由于丟失數(shù)據(jù),導(dǎo)致一組連續(xù)的怠速狀態(tài) Ping 彼此相對(duì)較遠(yuǎn)地分布開(kāi)來(lái)。故我們得重新執(zhí)行
時(shí)間-空間的約束條件 (and
)。
無(wú)法滿足約束條件:即一組連續(xù)的怠速狀態(tài) Ping 將被分隔得很遠(yuǎn),其中的 Journey 狀態(tài)的 Ping 都給丟失了。
以這種方式創(chuàng)建的
Pings 集群代表我們想要分類的已標(biāo)識(shí)汽車??奎c(diǎn)。綜上所述,汽車停靠點(diǎn)被定義為按時(shí)間順序排序的 Pings 集群 (包含怠速狀態(tài)或發(fā)動(dòng)機(jī)關(guān)閉狀態(tài)的 Pings,并且滿足進(jìn)一步的時(shí)間-空間約束條件。每個(gè)
汽車??奎c(diǎn)都有幾個(gè)特性 ( 通過(guò)計(jì)算其中的 Ping ):Ping 的數(shù)量,??奎c(diǎn)的起點(diǎn)和終點(diǎn) ( 屬于該停靠點(diǎn)的 Ping 的第一個(gè)和最后一個(gè)時(shí)間戳 ),駐留時(shí)間 ( 屬于該停靠點(diǎn)的起始時(shí)間和結(jié)束時(shí)間 ) 和形狀 ( 由GPS消息的最大 (最小) 緯度/經(jīng)度坐標(biāo)定義 )。所有這些信息對(duì)于在第二階段提取特征工作至關(guān)重要,即汽車停靠點(diǎn)意圖的分類。
標(biāo)注標(biāo)簽
- 首先,對(duì)上述程序中獲得的汽車??奎c(diǎn)分配
地面實(shí)況標(biāo)簽。 - 再者,將它們與
工單數(shù)據(jù)進(jìn)行匹配。一般來(lái)說(shuō),若車輛停留點(diǎn)在時(shí)間上和空間上與工單數(shù)據(jù)相匹配,則可認(rèn)為該汽車停靠點(diǎn)就是該工單數(shù)據(jù)。
-
空間匹配:對(duì)于只包含 idling 和 engine off 狀態(tài)的??奎c(diǎn),我們認(rèn)為它滿足空間上的匹配。 -
時(shí)間匹配:對(duì)于任何工單,空間上匹配了停留點(diǎn);如果停留點(diǎn)的駐留時(shí)間與工單的時(shí)間項(xiàng) (指示作業(yè)已啟動(dòng)的時(shí)間和指示服務(wù)已結(jié)束的時(shí)間) 間隔相交,時(shí)間的匹配也隨著滿足。
-
分類特征
在 車輛??總刹榧夹g(shù) 章節(jié)中描述的,從一系列的 GPS Pings 提取汽車??奎c(diǎn),并從中提取 100 個(gè)不同的特征用于訓(xùn)練隨機(jī)森林模型,隨之將這些特征劃分為 4 個(gè)不同的組:
-
汽車停靠點(diǎn)特征 ( Stop-wise features,SWF ):
駐留時(shí)間:(汽車) ??奎c(diǎn)第一個(gè)和最后一個(gè) Ping 的時(shí)間差。
-
開(kāi)始時(shí)間特征:一天中的小時(shí),一周中的某天,某月某日,某年某日等。
是否統(tǒng)一時(shí)間表示方式 (時(shí)間戳): yyyy-MM-dd HH:mm
關(guān)閉引擎所花費(fèi)的時(shí)間:對(duì)于每一個(gè)引擎關(guān)閉事件,我們計(jì)算當(dāng)前 Ping 與前一個(gè)非引擎關(guān)閉狀態(tài)的 Ping 之間的時(shí)間差,以表示引擎啟動(dòng)的時(shí)間。由于每個(gè)??奎c(diǎn)包含多個(gè)引擎關(guān)閉狀態(tài)的 Ping,我們需要使用幾個(gè)聚合函數(shù)聚合取得結(jié)果。
形狀:??奎c(diǎn)的寬度、高度、面積、比例。
??奎c(diǎn)類型:發(fā)動(dòng)機(jī)關(guān)閉狀態(tài)。
??奎c(diǎn)中發(fā)動(dòng)機(jī)關(guān)閉狀態(tài) Ping 的數(shù)量。
里程表距離:從第一次 Ping 到最后一次 Ping 的里程表距離。
??奎c(diǎn)內(nèi) Ping 的總數(shù)。
平均速度 (根據(jù)停留點(diǎn)中第一次和最后一次 Ping 之間的里程差除以駐留時(shí)間計(jì)算所得)。
-
興趣點(diǎn)特征 ( Points of interest features,POIF):利用
PTV xLocate Server中提取以下 POI 類型:- 銀行;
- 大學(xué);
- 酒店;
- 餐廳;
- 休息區(qū);
- 雜貨店;
- 學(xué)校;
- 購(gòu)物中心;
- 汽油;
- 開(kāi)放式停車場(chǎng);
-
汽車??奎c(diǎn)集群特征 ( Stop cluster features,CF ):描述當(dāng)前停靠點(diǎn)集周圍停靠點(diǎn)的特征所組成的特征集。其原理是,存在一些工作狀態(tài)的工單和非工作狀態(tài)的工單數(shù)據(jù),趨向于聚類成簇。類似于 [7] 中提出的熵度量方法:對(duì)于每個(gè)??奎c(diǎn),查看并收集 250 米半徑內(nèi)的周邊環(huán)繞的??奎c(diǎn)數(shù)據(jù)。
- 車輛熵,計(jì)算公式為:
是車隊(duì)中的車輛集合,
是 250 米半徑范圍內(nèi)車隊(duì)所有車輛的總停留點(diǎn)數(shù),
是車輛
在同一區(qū)域停靠的總次數(shù)。這個(gè)熵度量給出了一個(gè)區(qū)域內(nèi)同一車隊(duì)車輛的多樣性。
- 簇中汽車??奎c(diǎn)的平均,總和,最大和最小駐留時(shí)間。
- 鄰近汽車停靠點(diǎn)的數(shù)量 (在其質(zhì)心250米半徑以內(nèi))。
-
序列特征 (Sequential features,SeqF):
-
工作日內(nèi)停車的次序位置:同一輛車在白天按照停車先后順序的 (歸一化的) 相對(duì)位置。 -
停車所涵蓋的時(shí)間百分比:停車行為在工作日中的時(shí)間占比 ( 注意該值與工作日的開(kāi)始相關(guān),且工作日的開(kāi)始由一天中第一個(gè) Ping 定義 )。這也是司機(jī)夜間休息時(shí)間的近似假設(shè)。
-
實(shí)驗(yàn)
實(shí)驗(yàn)過(guò)程請(qǐng)參考原文獻(xiàn),篇幅問(wèn)題就不照搬文章內(nèi)容了。
總結(jié)
- 本文基于商用車隊(duì)的 GPS 數(shù)據(jù)研究了停車目的識(shí)別和分類問(wèn)題。
- 為了建立地面真實(shí)數(shù)據(jù)集,通過(guò)查看考慮到每輛車的工作單進(jìn)度數(shù)據(jù),開(kāi)發(fā)了一個(gè)時(shí)空聚類算法,實(shí)現(xiàn)了一個(gè)自動(dòng)標(biāo)注標(biāo)簽過(guò)程;
- 為了提高分類精確度,從 GPS Ping 數(shù)據(jù)中提取了 4 組不同的特征 ( SWF、POIF、CF 和 SeqF );
- 利用提取的特征訓(xùn)練隨機(jī)森林模型,并與兩種基線模型進(jìn)行性能比較。實(shí)驗(yàn)結(jié)果表明,本文提取總結(jié)的 4 組特征顯著提高了隨機(jī)森林的分類能力。
不足
- 在車輛??奎c(diǎn)偵查技術(shù)章節(jié)中,使用的是非監(jiān)督方式的算法,即基于密度的 DBSCAN 聚類算法。其中涉及密度閾值的設(shè)定多少問(wèn)題,就需要對(duì)具體樣本量進(jìn)行考究才能決定。
- 數(shù)據(jù)集是否可用于處理多分類問(wèn)題。例如,通過(guò)擴(kuò)大標(biāo)簽集以包含更具體的停車類型,而不僅僅限制于二元標(biāo)簽 ( 工作狀態(tài)與非工作狀態(tài) )。
參考
[1] Horozov T, Narasimhan N, Vasudevan V. Using location for personalized POI recommendations in mobile environments [C]//Applications and the internet, 2006. SAINT 2006. International symposium on. IEEE, 2006: 6 pp.-129.
[2] Jiang K, Yin H, Wang P, et al. Learning from contextual information of geo-tagged web photos to rank personalized tourism attractions [J]. Neurocomputing, 2013, 119: 17-25.
[3] Palma A T, Bogorny V, Kuijpers B, et al. A clustering-based approach for discovering interesting places in trajectories [C]//Proceedings of the 2008 ACM symposium on Applied computing. ACM, 2008: 863-868.
[4] Gong L, Sato H, Yamamoto T, et al. Identification of activity stop locations in GPS trajectories by density-based clustering method combined with support vector machines [J]. Journal of Modern Transportation, 2015, 23(3): 202-213.
[5] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise [C]//Kdd. 1996, 96(34): 226-231.
[6] Lv M, Chen L, Xu Z, et al. The discovery of personally semantic places based on trajectory data mining [J]. Neurocomputing, 2016, 173: 1142-1153.
[7] Gingerich K, Maoh H, Anderson W. Classifying the purpose of stopped truck events: An application of entropy to GPS data [J]. Transportation Research Part C: Emerging Technologies, 2016, 64: 17-27.
[8] Sambo F, Salti S, Bravi L, et al. Integration of GPS and satellite images for detection and classification of fleet hotspots [C]//Intelligent Transportation Systems (ITSC), 2017 IEEE 20th International Conference on. IEEE, 2017: 1-6.
[9] Wolf J, Guensler R, Bachman W. Elimination of the travel diary: Experiment to derive trip purpose from global positioning system travel data [J]. Transportation Research Record: Journal of the Transportation Research Board, 2001 (1768): 125-134.
[10] Bohte W, Maat K. Deriving and validating trip purposes and travel modes for multi-day GPS-based travel surveys: A large-scale application in the Netherlands [J]. Transportation Research Part C: Emerging Technologies, 2009, 17(3): 285-297.