1.兩項(xiàng)關(guān)鍵技術(shù)
? ? ?1.1大規(guī)模在線概率式記錄關(guān)聯(lián)
? 設(shè)備指紋的核心技術(shù)是,給定兩條請(qǐng)求事件,給出這兩條請(qǐng)求事件是否來自同一臺(tái)設(shè)備。設(shè)備指紋的一項(xiàng)關(guān)鍵技術(shù)是概率式記錄關(guān)聯(lián)(Probabilistic Record Linkage),它的非概率式版本確定式記錄關(guān)聯(lián)(Deterministic Record Linkage)確實(shí)和self join很像。
SELECT column_name(s)
FROM table1 T1, table1 T2
WHERE P(T1.a, T1.b, T2.a, T2.b) > threshold;(貝葉斯)
設(shè)備指紋的原理很簡(jiǎn)單,那么難點(diǎn)在哪里呢?
第一在于設(shè)備指紋的典型應(yīng)用場(chǎng)景反欺詐、營(yíng)銷追蹤等都需要實(shí)時(shí)地給出匹配結(jié)果,也就是要在線,這就意味著數(shù)據(jù)來源不是數(shù)據(jù)庫(kù),而是數(shù)據(jù)流。
第二,傳統(tǒng)的數(shù)據(jù)庫(kù)的記錄規(guī)模往往不是特別大,而在線反欺詐,每一個(gè)頁(yè)面訪問(PV)都會(huì)產(chǎn)生一條請(qǐng)求,要匹配的請(qǐng)求數(shù),每天至少是億級(jí)的。熟悉數(shù)據(jù)庫(kù)的人都知道,一個(gè)一億條記錄的表格self join的復(fù)雜度是多高。這還只是簡(jiǎn)單的確定式的匹配。
第三,概率式模型,我會(huì)放在后面詳細(xì)介紹。
? 所以做好設(shè)備指紋的第一步就是建立起一個(gè)大規(guī)模在線概率式記錄關(guān)聯(lián)平臺(tái)。它牽涉到流數(shù)據(jù)的處理、分布式內(nèi)存計(jì)算、算法優(yōu)化、高效的信息搜索等多個(gè)環(huán)節(jié)。
? 對(duì)于設(shè)備指紋技術(shù),機(jī)器學(xué)習(xí)的方法從數(shù)據(jù)中學(xué)習(xí),讓數(shù)據(jù)說話,摒除了人工規(guī)則方法的偏見和不穩(wěn)定性。但是機(jī)器學(xué)習(xí)的方法也面臨一定的挑戰(zhàn),最重要的挑戰(zhàn)就是在很多場(chǎng)景下,標(biāo)注數(shù)據(jù)是不足的。
? 近年來,半監(jiān)督學(xué)習(xí)的興起給設(shè)備指紋的機(jī)器學(xué)習(xí)帶來了新的思路。半監(jiān)督學(xué)習(xí)可以認(rèn)為是監(jiān)督學(xué)習(xí)的擴(kuò)展,與一般監(jiān)督學(xué)習(xí)不同的是,監(jiān)督學(xué)習(xí)只能在標(biāo)注數(shù)據(jù)上訓(xùn)練,而半監(jiān)督學(xué)習(xí)可以同時(shí)利用標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)。
? 生成式模型是一種典型的半監(jiān)督學(xué)習(xí)方法,對(duì)設(shè)備指紋技術(shù)有很好的效果。
? ? ? ?1.2 機(jī)器學(xué)習(xí)
? 就像每個(gè)人都有獨(dú)一無二的指紋一樣,每一臺(tái)終端設(shè)備也都擁有獨(dú)特的特征。這些獨(dú)特的屬性,在終端設(shè)備與外界通訊的過程中都會(huì)體現(xiàn)出來。追蹤設(shè)備通信行為,并用先進(jìn)的數(shù)據(jù)模型分析其特性,就能準(zhǔn)確識(shí)別和關(guān)聯(lián)設(shè)備,實(shí)現(xiàn)線上欺詐行為的識(shí)別和預(yù)警,這就是設(shè)備指紋技術(shù)的原理。被動(dòng)式才是未來!
參考文獻(xiàn):
1.https://wenku.baidu.com/view/46aab9558f9951e79b89680203d8ce2f006665ad.html?from=search;
2.https://wenku.baidu.com/view/cfaed0e2524de518964b7d71.html?from=search;
4.https://www.cnblogs.com/jeffen/p/6855485.html;
5.https://www.2cto.com/kf/201606/516044.html;
6.http://m.itdecent.cn/p/b6f4b0aca6b0;