
內(nèi)容來(lái)源:2017年5月6日,魅族數(shù)據(jù)架構(gòu)師黃振賢在“魅族技術(shù)開(kāi)放日第八期——數(shù)據(jù)洞察”進(jìn)行《魅族大數(shù)據(jù)之用戶洞察平臺(tái)介紹》演講分享。IT 大咖說(shuō)(WeChat_ID:itdakashuo)作為獨(dú)家視頻合作方,經(jīng)主辦方和講者審閱授權(quán)發(fā)布。
閱讀字?jǐn)?shù):1869?| 6分鐘閱讀
獲取嘉賓演講視頻回顧及PPT,請(qǐng)點(diǎn)擊:http://t.cn/EUJZiYc
摘要
魅族DMP(用戶洞察平臺(tái)),通過(guò)對(duì)三方受眾數(shù)據(jù)的匯聚、清洗、智能運(yùn)算,構(gòu)建了龐大的精準(zhǔn)人群數(shù)據(jù)中心,提供豐富的用戶畫(huà)像數(shù)據(jù)以及實(shí)時(shí)的場(chǎng)景識(shí)別力。對(duì)內(nèi):無(wú)縫對(duì)接各類(lèi)業(yè)務(wù)平臺(tái)的數(shù)據(jù)應(yīng)用,如廣告平臺(tái),PUSH推送,個(gè)性化推薦之間建立了數(shù)據(jù)通道,支持公司級(jí)的精準(zhǔn)營(yíng)銷(xiāo),消息及時(shí)送達(dá)服務(wù)等場(chǎng)景。對(duì)外:完善對(duì)數(shù)據(jù)的管理及輸出流程,以開(kāi)放接口形式為全行業(yè)從業(yè)者提供標(biāo)準(zhǔn)的精準(zhǔn)人群標(biāo)簽,幫助優(yōu)化投放和提升營(yíng)銷(xiāo)效果。達(dá)到對(duì)受眾的精準(zhǔn)投放,釋放數(shù)據(jù)真正價(jià)值!本文將介紹用戶洞察平臺(tái)所采用的架構(gòu),探討遇到的技術(shù)難點(diǎn)和解決過(guò)程,回顧目前架構(gòu)的不足之處以及將來(lái)改進(jìn)的方向。
總體介紹
用戶洞察平臺(tái)的定位
通過(guò)對(duì)三方受眾數(shù)據(jù)的匯聚、清洗、智能運(yùn)算,構(gòu)建了龐大的精準(zhǔn)人群數(shù)據(jù)中心,提供豐富的用戶畫(huà)像數(shù)據(jù)以及實(shí)時(shí)的場(chǎng)景識(shí)別力。?
無(wú)縫對(duì)接各類(lèi)業(yè)務(wù)平臺(tái)的數(shù)據(jù)應(yīng)用,如廣告平臺(tái),PUSH推送,個(gè)性化推薦之間建立了數(shù)據(jù)通道,支持公司級(jí)的精準(zhǔn)營(yíng)銷(xiāo),消息及時(shí)送達(dá)服務(wù)等等。
營(yíng)銷(xiāo)效果評(píng)估,反饋數(shù)據(jù)可進(jìn)一步加工,用于提升畫(huà)像標(biāo)簽質(zhì)量。
核心需求
用戶洞察的核心需求包含了以下幾個(gè)部分。
標(biāo)簽生成:互聯(lián)網(wǎng)業(yè)務(wù)變化快,標(biāo)簽需求變更頻繁。要求系統(tǒng)快速響應(yīng)標(biāo)簽需求。
人群洞察:對(duì)全量用戶任意標(biāo)簽進(jìn)行過(guò)濾以及聚合計(jì)算,查詢(xún)1-2秒內(nèi)響應(yīng)。
受眾分發(fā):在無(wú)縫對(duì)接各類(lèi)業(yè)務(wù)系統(tǒng),實(shí)現(xiàn)高效實(shí)時(shí)的精確營(yíng)銷(xiāo)。
標(biāo)簽查詢(xún):根據(jù)用戶ID查詢(xún)用戶畫(huà)像詳情,對(duì)于廣告業(yè)務(wù)的查詢(xún)需要在更苛刻的50ms內(nèi)返回。
總體架構(gòu)
集成開(kāi)發(fā)平臺(tái)之作業(yè)調(diào)度系統(tǒng)上,配置和運(yùn)行離線計(jì)算任務(wù)。流平臺(tái)(AnyStream)負(fù)責(zé)實(shí)時(shí)標(biāo)簽計(jì)算。管理模塊生成的相關(guān)規(guī)則,存儲(chǔ)在MySQL,供標(biāo)簽生成任務(wù)(Hive/MR/流平臺(tái))使用。用戶畫(huà)像(標(biāo)簽)寬表保存在ES上。Hbase和Redis提供kv查詢(xún)。使用開(kāi)發(fā)平臺(tái)(OpenAPI)提供對(duì)外接口。
標(biāo)簽生成
根據(jù)生成計(jì)算的過(guò)程,標(biāo)簽分為兩類(lèi),其中一類(lèi)是統(tǒng)計(jì)類(lèi)標(biāo)簽。首先從用戶的行為里統(tǒng)計(jì)出指標(biāo),然后根據(jù)標(biāo)簽生成規(guī)則和統(tǒng)計(jì)指標(biāo)作為輸入,就可以對(duì)應(yīng)到哪個(gè)用戶屬于什么消費(fèi)等級(jí)。
算法類(lèi)標(biāo)簽計(jì)算
標(biāo)簽除了統(tǒng)計(jì)類(lèi)的之外還有一種算法類(lèi)的。
選取高置信度資料(如用戶注冊(cè)信息)和用戶行為數(shù)據(jù)作輸入進(jìn)行模型訓(xùn)練。然后使用訓(xùn)練好的模型進(jìn)行屬性預(yù)測(cè)。
單值標(biāo)簽與多值標(biāo)簽
單值標(biāo)簽是指用戶在該標(biāo)簽下只能取一個(gè)值,不能多選。?
多值標(biāo)簽是用戶可以取該標(biāo)簽下的多個(gè)取值組合。比如用戶可以有多個(gè)興趣愛(ài)好。 多值標(biāo)簽的存在,會(huì)影響存儲(chǔ)查詢(xún)引擎的選型和存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)。
標(biāo)簽生成過(guò)程
這種模式的優(yōu)點(diǎn)是配置化管理,提供 Web UI 管理標(biāo)簽的生命周期;基于配置生成標(biāo)簽,標(biāo)簽寬表數(shù)據(jù)與元數(shù)據(jù)100%一致。
尚存的不足是目前配置化管理只涵蓋到最終的標(biāo)簽寬表生成。與上游的指標(biāo)統(tǒng)計(jì)和算法預(yù)有脫節(jié)。上游計(jì)算過(guò)程是單獨(dú)開(kāi)發(fā),指標(biāo)定義只是另外配置的數(shù)據(jù)描述(可能存在不一致)。一些標(biāo)簽下線(廢除)后,相應(yīng)的上游任務(wù)的依賴(lài)需要另外廢除,否則會(huì)遺留無(wú)用的作業(yè)浪費(fèi)計(jì)算資源。
標(biāo)簽存儲(chǔ)
標(biāo)簽存儲(chǔ)總覽
ElasticSearch(ES)是一個(gè)基于Lucene構(gòu)建的開(kāi)源、分布式、RESTful搜索引擎。能夠達(dá)到實(shí)時(shí)搜索,穩(wěn)定,可靠,快速。基于 ES 實(shí)現(xiàn)對(duì)全量用戶任意標(biāo)簽進(jìn)行在線篩選和聚合分析,秒及響應(yīng)。Hbase 提供大吞吐量的 key/value 查詢(xún)。性能要求更為苛刻的 key/value 查詢(xún)(廣告平臺(tái))通過(guò)使用 Redid 來(lái)實(shí)現(xiàn)。
Why ElasticSearch (ES)
傳統(tǒng)的Vertica社區(qū)版有3個(gè)節(jié)點(diǎn)和1T存儲(chǔ)容量限制。隨著數(shù)據(jù)規(guī)模和調(diào)用數(shù)暴增,性能出現(xiàn)瓶頸對(duì)于多值標(biāo)簽,只能采用csv方式保存在varchar字段,性能低下。
多值標(biāo)簽檢索使用字符串 LIKE 操作;聚合雖能通過(guò)一些 trick 來(lái)支持,但性能太差。
而現(xiàn)在ES能夠達(dá)到實(shí)時(shí)搜索,穩(wěn)定,可靠,快速。在線更新(實(shí)時(shí)/準(zhǔn)實(shí)時(shí)更新)水平擴(kuò)展能力強(qiáng)。Array type完美支持多值標(biāo)簽存儲(chǔ)和分析場(chǎng)景。
HBase與Redis
Hbase提供低成本,高吞吐量的 kv 查詢(xún)。滿足一般業(yè)務(wù)的查詢(xún),缺點(diǎn)是查詢(xún)響應(yīng)時(shí)間不太理想(針對(duì)廣告業(yè)務(wù)而言)。
而對(duì)于Redis,廣告業(yè)務(wù)提出 50ms 內(nèi)的查詢(xún)延遲,這種苛刻要求需用 Redis 實(shí)現(xiàn)。 Redis存儲(chǔ)目前只服務(wù)于廣告平臺(tái)的查詢(xún)調(diào)用。
考慮成本因素,主要使用 Hbase 來(lái)提供KV查詢(xún)。部分要求苛刻的業(yè)務(wù),使用 Redis 作為補(bǔ)充。
平臺(tái)功能
主要功能列表
平臺(tái)的主要功能有五種,人群管理、人群篩選、畫(huà)像洞察、受眾分發(fā)和畫(huà)像查詢(xún)。
人群管理可通過(guò)兩種方式創(chuàng)建。1、指定標(biāo)簽條件;2、導(dǎo)入imei列表,對(duì)人群進(jìn)行修改、刪除等操作。
人群篩選是指定標(biāo)簽條件選項(xiàng),查詢(xún)滿足條件的用戶數(shù)。
畫(huà)像洞察分為兩步。首先指定標(biāo)簽條件選項(xiàng)選出用戶群體,然后再指定要分析的標(biāo)簽,通過(guò)聚合運(yùn)算,分析用戶特征。?
受眾分發(fā)需要采取一定的技術(shù)手段,把指定人群推至下游的營(yíng)銷(xiāo)渠道(廣告平臺(tái)、推送平臺(tái)、OTA等)。
畫(huà)像查詢(xún)則是對(duì)下游系統(tǒng)提供查詢(xún)接口,調(diào)用方指定用戶標(biāo)識(shí)(imei)查詢(xún)?cè)撚脩舻漠?huà)像標(biāo)簽。
今天的分享就到這里,謝謝大家!
編者:IT大咖說(shuō),轉(zhuǎn)載請(qǐng)標(biāo)明版權(quán)和出處