數(shù)據(jù)cpjl修煉手冊(cè)

一、基礎(chǔ)知識(shí)

1.1 常用工具

1.1.1玩轉(zhuǎn)Excel

這是一個(gè)最常見(jiàn),并且異常強(qiáng)大的一個(gè)工具。

需要掌握一下函數(shù):

1-日期函數(shù)

day()、month()、year()、date()這四個(gè)不多解釋?zhuān)褪呛?jiǎn)單的返回日月年和具體日期

today():返回今日、weekday():返回日期的星期數(shù)、weeknum():一年中的第幾周

2-數(shù)學(xué)函數(shù)

product():所有以參數(shù)形式給出的數(shù)字相乘并給出乘積

rand():取[0,1)間的一個(gè)隨機(jī)數(shù)

round():四舍五入

sumif():按條件求和

3-查找引用函數(shù)

VLOOKUP()

4-Excel有一大利器(數(shù)據(jù)透視表)

可以快速的將大量數(shù)據(jù)生成分析和展示的報(bào)表,并且可以自由組合查看不同的角度,可以實(shí)現(xiàn)的主要功能有:

(1)自動(dòng)計(jì)算分類(lèi)間數(shù)據(jù)匯總、計(jì)數(shù)、最大、最小平均等

(2)自動(dòng)排序和分組

(3)分析環(huán)比、同比、定基比等

(4)根據(jù)業(yè)務(wù)邏輯個(gè)性化分析

1.1.2SQL

日常必會(huì)的工具

1.1.3R

主要用來(lái)解決統(tǒng)計(jì)計(jì)算和繪圖,提供了很多集成的統(tǒng)計(jì)工具,處理基本的R的基礎(chǔ)知識(shí)以外,還需要掌握R的可視化包

1.1.4產(chǎn)品原型工具

主要使用的就是Axure、墨刀等操作類(lèi)工具,產(chǎn)品功能和需求內(nèi)容的主要示意。

1.2需求管理

對(duì)于用戶來(lái)說(shuō),需求的本質(zhì)就是用戶的動(dòng)機(jī);對(duì)于工程來(lái)說(shuō),需求就是一個(gè)簡(jiǎn)單按鈕的調(diào)整,或者一個(gè)數(shù)據(jù)計(jì)算口徑的定義。

1.2.1需求來(lái)源與判斷

通常需要通過(guò)用戶調(diào)研、競(jìng)品分析、用戶反饋、頭腦風(fēng)暴、數(shù)據(jù)分析等方面挖掘,數(shù)據(jù)產(chǎn)品通常也會(huì)有業(yè)務(wù)方直接提的數(shù)據(jù)需求

在需求對(duì)接后,需要先根據(jù)需求類(lèi)別進(jìn)行梳理,是提數(shù)類(lèi)需求、數(shù)據(jù)接口類(lèi)需求、數(shù)據(jù)分析類(lèi)需求、產(chǎn)品功能類(lèi)需求,還是數(shù)據(jù)優(yōu)化類(lèi)需求等

二、實(shí)踐

2.1基本工作內(nèi)容

(1)參與市場(chǎng)分析與需求調(diào)研,挖掘并梳理用戶需求。

(2)負(fù)責(zé)公司大數(shù)據(jù)相關(guān)產(chǎn)品的規(guī)劃,對(duì)產(chǎn)品全生命周期進(jìn)行迭代和優(yōu)化。

(3)與數(shù)據(jù)分析師配合構(gòu)建數(shù)據(jù)模型產(chǎn)品,與數(shù)據(jù)研發(fā)工程師配合搭建數(shù)據(jù)倉(cāng)庫(kù)。

(4)撰寫(xiě)產(chǎn)品文檔,跨部門(mén)進(jìn)行資源協(xié)調(diào)、溝通,推動(dòng)項(xiàng)目高效執(zhí)行并高質(zhì)量上線。

(5)深度挖掘大數(shù)據(jù)價(jià)值,負(fù)責(zé)數(shù)據(jù)變現(xiàn)相關(guān)項(xiàng)目。

2.2常用的分析方法

在進(jìn)行數(shù)據(jù)分析之前,先想一下分析框架和分析方法。

數(shù)據(jù)分析方法一般有常規(guī)分析、統(tǒng)計(jì)模型分析和自建模型分析

2.2.1常規(guī)分析

一般把業(yè)務(wù)相關(guān)數(shù)據(jù)從Hive或者M(jìn)ySQL中導(dǎo)入Excel,然后在Excel中通過(guò)簡(jiǎn)單的表格、線圖等方式直觀地分析數(shù)據(jù)。

常規(guī)分析經(jīng)常會(huì)用到同比和環(huán)比分析法與ABC分析法,即分析對(duì)比趨勢(shì)和分析占比情況。

同比:某個(gè)周期的時(shí)段與上一個(gè)周期的相同時(shí)段比較,如今年的6月比去年的6月,本周的周一比上周的周一等。

環(huán)比:某個(gè)時(shí)段與其上一個(gè)時(shí)長(zhǎng)相等的時(shí)段做比較,比如本周環(huán)比上周等。

ABC分析法一般以某一指標(biāo)為對(duì)象,進(jìn)行數(shù)量分析,以該指標(biāo)各維度數(shù)據(jù)與總體數(shù)據(jù)的比重為依據(jù),按照比例大小順序排列,并按照一定的比重或累計(jì)比重標(biāo)準(zhǔn),將各組成部分分為A、B、C三類(lèi)。例如,經(jīng)過(guò)長(zhǎng)期的觀察發(fā)現(xiàn),美國(guó)80%的人只掌握了20%的財(cái)產(chǎn),而另外20%的人卻掌握了全國(guó)80%的財(cái)產(chǎn),而且很多事情都符合該規(guī)律。

2.2.2統(tǒng)計(jì)模型分析

當(dāng)掌握了大量數(shù)據(jù)時(shí),我們往往希望在數(shù)據(jù)中挖掘出更多的信息,一般可以應(yīng)用成熟的模型進(jìn)行比較深入的分析。及通過(guò)已有數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)

我們經(jīng)常會(huì)面對(duì)如下的業(yè)務(wù)場(chǎng)景:

(1)預(yù)測(cè)產(chǎn)品在未來(lái)一年內(nèi)的日活用戶數(shù)會(huì)按什么趨勢(shì)發(fā)展,預(yù)估DAU。

(2)上線了某個(gè)營(yíng)銷(xiāo)活動(dòng),預(yù)估活動(dòng)效果、用戶參與度情況。

(3)對(duì)現(xiàn)有用戶進(jìn)行細(xì)分,預(yù)估到底哪一類(lèi)用戶才是目標(biāo)用戶群。

(4)在一些用戶購(gòu)買(mǎi)了很多商品后,預(yù)估哪些商品同時(shí)被購(gòu)買(mǎi)的概率大。

四類(lèi)問(wèn)題有著不同的解決方案,基本如下:

(1)要用回歸分析,例如預(yù)估DAU,因變量是DAU,與它有關(guān)的自變量有新增用戶、老用戶、老用戶留存、回流用戶等,然后根據(jù)歷史數(shù)據(jù),通過(guò)回歸分析擬合成一個(gè)函數(shù),現(xiàn)在常用的回歸分析主要有線性和非線性回歸、時(shí)間序列等。

(2)我們可以根據(jù)以往活動(dòng)的數(shù)據(jù),分析活動(dòng)的各個(gè)影響因素在滿足什么情況時(shí)才會(huì)產(chǎn)生我們想要的效果,并可以把有上線活動(dòng)時(shí)和沒(méi)有上線活動(dòng)時(shí)的各項(xiàng)數(shù)據(jù)輸入系統(tǒng)中,分類(lèi)函數(shù)就會(huì)判斷活動(dòng)效果與哪些因素有關(guān),目前常用的分類(lèi)分析方法有決策樹(shù)、樸素貝葉斯算法、KNN算法、神經(jīng)網(wǎng)絡(luò)算法等

(3)以用聚類(lèi)分析。細(xì)分市場(chǎng)、細(xì)分用戶群都屬于聚類(lèi)問(wèn)題,這樣更方便了解用戶的具體特征,從而有針對(duì)性地做一些營(yíng)銷(xiāo)等,常見(jiàn)的聚類(lèi)分析一般有K均值聚類(lèi)、分布估計(jì)聚類(lèi)等。

最常用的聚類(lèi)分析就是對(duì)用戶進(jìn)行分類(lèi)。首先,要選取聚類(lèi)變量,要盡量使用對(duì)產(chǎn)品使用行為有影響的變量,但是也要注意這些變量要在不同研究對(duì)象上有明顯差異,并且這些變量之間不存在高度相關(guān)。例如,年齡、性別、學(xué)歷等。其次,把變量對(duì)應(yīng)的數(shù)據(jù)輸入模型中,選擇一個(gè)合適的分類(lèi)數(shù)目,一般會(huì)選拐點(diǎn)附近的幾個(gè)類(lèi)別作為分類(lèi)數(shù)目。再次,要觀察各類(lèi)別用戶在各個(gè)變量上的表現(xiàn),找出不同類(lèi)別用戶區(qū)別于其他用戶的重要特征,選取最明顯的幾個(gè)特征,最后進(jìn)行聚類(lèi)處理。

(4)要用關(guān)聯(lián)分析。關(guān)聯(lián)分析在電商中的應(yīng)用場(chǎng)景比較多,最經(jīng)典的案例當(dāng)屬啤酒與尿不濕的搭配銷(xiāo)售,常用的關(guān)聯(lián)分析有購(gòu)物籃分析、屬性關(guān)聯(lián)分析等。做關(guān)聯(lián)分析一般要理解頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則兩個(gè)概念。頻繁項(xiàng)集是經(jīng)常出現(xiàn)在一起的物品的集合,關(guān)聯(lián)規(guī)則暗示兩種物品之間可能存在很強(qiáng)的關(guān)系。

2.2.3自建模型分析

當(dāng)以上兩種分析方法都不能滿足業(yè)務(wù)的分析需求時(shí),這時(shí)就需要自建模型進(jìn)行分析。

由于每個(gè)公司的業(yè)務(wù)模式都不太一樣,就需要根據(jù)自己的業(yè)務(wù)模式進(jìn)行自建模型分析

2.3應(yīng)用實(shí)例

2.3.1商城積分和DAU的關(guān)聯(lián)分析

下面以一份簡(jiǎn)單的分析報(bào)告為例,主要分析商城積分與DAU的關(guān)聯(lián)

1.背景

(1)領(lǐng)取過(guò)積分與未領(lǐng)取過(guò)積分的用戶的DAU和平均停留時(shí)長(zhǎng)是否有差別?

(2)領(lǐng)取過(guò)但未消費(fèi)過(guò)積分與領(lǐng)取過(guò)且消費(fèi)過(guò)積分的用戶的DAU和平均停留時(shí)長(zhǎng)是否有差別?

2.結(jié)論

(1)用戶領(lǐng)取積分,能夠有效提高DAU和平均停留時(shí)長(zhǎng),提高DAU (↑5.23%)的效果優(yōu)于平均停留時(shí)長(zhǎng)(↑3.25%)。

(2)從目前的數(shù)據(jù)發(fā)現(xiàn),積分的使用/消費(fèi)并不能明顯提高DAU,對(duì)平均停留時(shí)長(zhǎng)的提高影響更小。

3.分析思路

(1)用戶分為三組。

①未領(lǐng)取過(guò)積分的用戶。

②領(lǐng)取過(guò)但未消費(fèi)過(guò)積分的用戶。

③領(lǐng)取過(guò)且消費(fèi)過(guò)積分的用戶。

(2)分析這三組用戶分別在領(lǐng)取/消費(fèi)前后一周的DAU和平均停留時(shí)長(zhǎng)。

4.詳細(xì)數(shù)據(jù)和分析過(guò)程

1)未領(lǐng)取過(guò)積分的用戶的DAU和平均停留時(shí)長(zhǎng),未領(lǐng)取過(guò)積分的用戶在3月26日—3月31日和4月16日—4月21日的DAU和平均停留時(shí)長(zhǎng)分別如表3-2所示。

結(jié)論:4月16日—4月21日期間未領(lǐng)取過(guò)積分的用戶的DAU減少了10%,平均停留時(shí)長(zhǎng)下降了15.2%。

2)領(lǐng)取過(guò)但未消費(fèi)過(guò)積分的用戶的DAU和平均停留時(shí)長(zhǎng)領(lǐng)取過(guò)但未消費(fèi)過(guò)積分的用戶(2018年4月1日—2018年4月15日期間)在領(lǐng)取前后一周的DAU和平均停留時(shí)長(zhǎng)分別如表3-3所示。

再來(lái)看一下領(lǐng)取積分前后,周一到周六DAU和平均停留時(shí)長(zhǎng)的對(duì)比情況如圖3-6所示。其中,藍(lán)色曲線表示領(lǐng)取積分之前的DAU,紅色曲線表示領(lǐng)取積分之后的DAU,紫色表示領(lǐng)取積分之前的平均停留時(shí)長(zhǎng),綠色表示領(lǐng)取積分之后的平均停留時(shí)長(zhǎng)。

結(jié)論:

(1)與領(lǐng)取積分前一周內(nèi)對(duì)比,用戶在領(lǐng)取積分后的一周內(nèi),DAU平均增長(zhǎng)了5.23%,平均停留時(shí)長(zhǎng)增長(zhǎng)了3.33%。

(2)與未領(lǐng)取過(guò)積分的用戶在同一時(shí)期DAU和平均停留時(shí)長(zhǎng)的前后對(duì)比可以發(fā)現(xiàn),用戶領(lǐng)取積分能夠在一定程度上提高用戶的DAU和平均停留時(shí)長(zhǎng),提高DAU的效果略好于平均停留時(shí)長(zhǎng)。

3)消費(fèi)過(guò)積分的用戶DAU和平均停留時(shí)長(zhǎng)消費(fèi)過(guò)積分的用戶(2018年4月1日—2018年4月15日期間)在消費(fèi)前后一周的DAU和平均停留時(shí)長(zhǎng)分別如表3-4所示。

再來(lái)看一下消費(fèi)積分前后,周一到周六DAU和平均停留時(shí)長(zhǎng)的對(duì)比情況如圖3-7所示。其中,藍(lán)色曲線表示消費(fèi)積分之后的DAU,紅色曲線表示消費(fèi)積分之前的DAU,紫色表示消費(fèi)積分之前的平均停留時(shí)長(zhǎng),綠色表示消費(fèi)積分之后的平均停留時(shí)長(zhǎng)。

結(jié)論:

(1)與消費(fèi)積分前一周對(duì)比,用戶在消費(fèi)積分后的一周,DAU只增長(zhǎng)了0.9%,平均停留時(shí)長(zhǎng)下降了3.1%。

(2)從目前的數(shù)據(jù)中發(fā)現(xiàn),積分的使用/消費(fèi)并不能明顯提高DAU,對(duì)平均停留時(shí)長(zhǎng)的影響更小,由于4月消費(fèi)積分的用戶數(shù)量比較少,可以在消費(fèi)積分用戶數(shù)量比較多的時(shí)候再進(jìn)一步比較

2.3.2基于時(shí)間序列預(yù)測(cè)訂單量

需要預(yù)測(cè)訂單量等數(shù)據(jù)進(jìn)一步調(diào)控運(yùn)營(yíng)策略,提升企業(yè)的業(yè)務(wù)規(guī)模

在高方差(例如,假日和體育賽事)期間進(jìn)行準(zhǔn)確的時(shí)間序列預(yù)測(cè)對(duì)于異常檢測(cè)、資源分配、預(yù)算計(jì)劃和其他相關(guān)任務(wù)來(lái)說(shuō)非常重要。

為了預(yù)測(cè)某網(wǎng)約車(chē)品牌的訂單量數(shù)據(jù),采用了一種新型的貝葉斯神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)因易于引入外生變量和自動(dòng)特征提取能力而成為流行的時(shí)間序列建??蚣?,通過(guò)利用大量數(shù)據(jù)跨越多個(gè)維度,LSTM(Long Short-Term Memory,長(zhǎng)短期記憶網(wǎng)絡(luò))方法可以模擬復(fù)雜的非線性特征,這對(duì)于預(yù)測(cè)極端事件至關(guān)重要。當(dāng)存在異常數(shù)據(jù)時(shí),預(yù)測(cè)結(jié)果也不會(huì)因誤差傳播而導(dǎo)致誤差增大。

首先進(jìn)行數(shù)據(jù)抽取,用于預(yù)測(cè)的數(shù)據(jù)來(lái)源于以往的歷史訂單。選取目前開(kāi)城的所有運(yùn)營(yíng)城市至今的日級(jí)別有效訂單數(shù)據(jù),并通過(guò)天氣預(yù)報(bào)網(wǎng)站獲取歷史天氣數(shù)據(jù)和天氣預(yù)報(bào)數(shù)據(jù),同時(shí),要把節(jié)假日等因素考慮進(jìn)來(lái),這就需要爬取中國(guó)假日辦公布的節(jié)假日數(shù)據(jù)。

然后,我們用時(shí)間序列特征構(gòu)建模型,訓(xùn)練數(shù)據(jù)如下:

(1)采用滑動(dòng)窗口,選取前28天的數(shù)據(jù)作為一個(gè)訓(xùn)練集。在每一個(gè)訓(xùn)練集內(nèi),通過(guò)對(duì)訓(xùn)練集進(jìn)行對(duì)數(shù)變換,去除樣本間波動(dòng)幅度的影響。

(2)根據(jù)經(jīng)驗(yàn)及數(shù)據(jù)可得性,構(gòu)建最高溫、最低溫等天氣特征和節(jié)假日特征這兩個(gè)外部特征。

(3)構(gòu)建模型。對(duì)于模型結(jié)構(gòu),使用RNN autoencoder+DNN Regression,RNN autoencoder可以用于降維,提取特征,然后再使用深度學(xué)習(xí)DNN構(gòu)建回歸模型

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容