數(shù)據(jù)源:天池-Ad Display/Click Data on Taobao.com
————以下是中文描述—————
Ali_Display_Ad_Click是阿里巴巴提供的一個淘寶展示廣告點擊率預估數(shù)據(jù)集。
| 數(shù)據(jù)集名稱 | 說明 | key | 屬性 |
|---|---|---|---|
| raw_sample | 樣本骨架 | 用戶ID& 廣告ID& 時間戳 |
在某個 時間段 發(fā)布在 廣告位 后 被/未被 點擊 |
| ad_feature | 廣告的信息 | 廣告ID | 在某個 廣告計劃 中,某 品牌 的 廣告主 將其某 價格 的某 類目 的商品 |
| user_profile | 用戶的信息 | 用戶ID | 某個 微群 和 group 內(nèi)的,多少歲 的 男生/女生,其在某 城市,是/不是 大學生,消費層次 較強/差,購物深度 較強/差 |
| raw_behavior_log | 用戶的行為 | 用戶ID& 時間戳 |
在某 時間點,曾經(jīng)把某 品牌詞 的某 類目 的商品,瀏覽 / 喜歡 / 加入購物車 / 購買 |
A. raw_sample 原始樣本骨架
淘寶網(wǎng)站中隨機抽樣了114萬用戶8天內(nèi)的廣告展示/點擊日志(2600萬條記錄),構成原始的樣本骨架。
字段說明如下:
| 字段 | 說明 |
|---|---|
| user_id | 脫敏過的用戶ID |
| adgroup_id | 脫敏過的廣告單元ID |
| time_stamp | 時間戳 |
| pid | 資源位 |
| noclk | 為1代表沒有點擊;為0代表點擊 |
| clk | 為0代表沒有點擊;為1代表點擊 |
可用前面7天的做訓練樣本(20170506-20170512),用第8天的做測試樣本(20170513)。
B. ad_feature 廣告基本信息表
| 字段 | 說明 |
|---|---|
| adgroup_id | 脫敏過的廣告ID |
| cate_id | 脫敏過的商品類目ID |
| campaign_id | 脫敏過的廣告計劃ID |
| customer_id | 脫敏過的廣告主ID |
| brand | 脫敏過的品牌ID |
| price | 寶貝的價格 |
其中一個廣告ID對應一個商品(寶貝),一個寶貝屬于一個類目,一個寶貝屬于一個品牌。
C. user_profile 用戶基本信息表
| 字段 | 說明 |
|---|---|
| userid | 脫敏過的用戶ID |
| cms_segid | 微群ID |
| cms_group_id | cms_group_id |
| final_gender_code | 性別 1:男,2:女 |
| age_level | 年齡層次 |
| pvalue_level | 消費檔次,1:低檔,2:中檔,3:高檔 |
| shopping_level | 購物深度,1:淺層用戶,2:中度用戶,3:深度用戶 |
| occupation | 是否大學生,1:是,0:否 |
| new_user_class_level | 城市層級 |
D. behavior_log 用戶的行為日志
raw_sample中全部用戶,22天內(nèi)的購物行為(共七億條記錄)。
| 字段 | 說明 |
|---|---|
| user | 脫敏過的用戶ID |
| time_stamp | 時間戳 |
| btag | 行為類型, 包括以下四種: - ipv:瀏覽 - cart:加入購物車 - fav:喜歡 - buy:購買 |
| cate | 脫敏過的商品類目 |
| brand | 脫敏過的品牌詞 |
分析思路
用到的工具和方法
- 數(shù)據(jù)清理
- 描述統(tǒng)計
- 假設檢驗、F值、P值
- 預測
- Tableau儀表板
示例:典型科研場景
根據(jù)用戶歷史購物行為預測用戶在接受某個廣告的曝光時的點擊概率。