今天參加了CCF TF組織的大數(shù)據(jù)系統(tǒng)與應(yīng)用講座,聽了關(guān)于小米用戶畫像的介紹,簡要做個筆記。
數(shù)據(jù)來源:
- 手機、電視、生態(tài)鏈產(chǎn)品等式硬件
- MIUI、互娛、云服務(wù)、金融等服務(wù)
- 小米商城、小米之家、全網(wǎng)電商等
用戶畫像1.0
基于統(tǒng)計的用戶標(biāo)簽
基本的方法就是預(yù)測+統(tǒng)計
基礎(chǔ)屬性
- 性別/年齡
- 學(xué)歷/職業(yè)
- 地域/語言
- 設(shè)備數(shù)量/型號/系統(tǒng)
- 帳號真實性/米粉
狀態(tài)屬性
- 設(shè)備活躍狀態(tài)
- 在校/工作狀態(tài)
- 結(jié)婚/育兒狀態(tài)
- 有車/有房
- 頻繁出差
興趣屬性
- 興趣愛好(一級/二級)
金融屬性
- 收入/支出
- 個人信譽/購買力
- 消費(小米網(wǎng)/游戲/圖書/主題/小米生活)
行為屬性
- App使用行為
- 撥打電話(黃頁)
- 搜索和瀏覽行為
- 視頻/閱讀行為
電商屬性
- 電商團購
- 品牌偏好
SNS社交
- SNS社交
注: 小米有多看閱讀,所以會了解用戶的內(nèi)容相關(guān)興趣。
性別的預(yù)測
大約有5%的準(zhǔn)確數(shù)據(jù)(用戶填寫的,用戶填寫的準(zhǔn)確率可能在90%?95%以上,總體上用戶不是亂填的)。
通過安裝APP、訪問網(wǎng)站、搜索詞等特征預(yù)測用戶性別,在Recall為99%時Precision為83%,如果降低Recall可以提高準(zhǔn)確率>90%。
用戶真實性預(yù)測
根據(jù)帳號登錄、手機使用、電商購買、米幣支付、MI Cloud使用、注冊碼信息等特征使用規(guī)則劃分可信用戶,黃牛從20%下降到10%以內(nèi)。用戶真實性預(yù)測也用于金融信用以及各種活動中。誤殺率高(在知乎上看到有人吐糟)。
用戶畫像2.0
基于行為的事實標(biāo)簽
通過規(guī)則提取事件
- 搜索
- 跑步
- 拍照
- 注冊
- 安裝
- 下載
- 出行
- 購物
- 閱讀
- 通話
- 游戲
- 搬家
- 重置
- 視頻
- 交友
- 打車
構(gòu)建龐大標(biāo)簽體系
- 聚合各業(yè)務(wù)已有標(biāo)簽
- 盡量使用已有資源
- 人工:例如構(gòu)建售后相關(guān)標(biāo)簽
反饋定向
- 粗選一組用戶,進行實驗,得到成功率。
- 根據(jù)進行反饋的用戶的行為,去挑選更多的用戶進行實驗,很大可能得到更高的成功率(目標(biāo)用戶群更精準(zhǔn))。
- 直到業(yè)務(wù)部門滿意成功率。
路徑分析
- 用于用戶真實性判定。
- 用戶的事件,進行頻繁項集分析,并沒有作用。
- 路徑分析可以起作用,有效降低誤殺率(人工規(guī)則很難組合多個維度的規(guī)則,往往有一個維度超限就作出判定。路徑分析可以考慮多種維度及參數(shù)的組合。)。
- 使用路徑分析生成一組組規(guī)則,人工審核規(guī)則,主要指標(biāo):錯誤率、覆蓋率。
用戶畫像2.1
外延擴展
App2Vec
對50萬App生成200維分布式表征。
用于性別預(yù)測,AUC達到85%準(zhǔn)確率,與之前方法相當(dāng),但是非常省事。
反饋定向結(jié)果與APP分類結(jié)果都達到現(xiàn)有水平。
App打開預(yù)測
Top@5的準(zhǔn)確率為83%,這是一個還不能使用的水平。
選取每個用戶的Top5的應(yīng)用作為預(yù)測,Top@5的準(zhǔn)確率是60%。
Top@10的準(zhǔn)確率大于90%,但是沒有意義。
行為預(yù)測
小米應(yīng)該在做虛擬個人助理產(chǎn)品。一方面像其他類似產(chǎn)品一樣,可能采用一些規(guī)則的方式,比如知道用戶下班了,空氣質(zhì)量差,從而提前打開空氣靜化器。另一方面,在嘗試預(yù)測用戶的下一個行為,例如時間+Context(回家模式、睡眠模式、閱讀模式、通話模式)得到閱讀0.7,外賣0.3,開燈0.1。