和鯨項(xiàng)目——上海分析師職位數(shù)據(jù)簡析

數(shù)據(jù)來源:和鯨社區(qū)

背景

從事數(shù)據(jù)分析職業(yè)的人員和想要轉(zhuǎn)行的人員都想要在換工作的時(shí)候拿到更高的薪資,那么在最短的時(shí)間從什么方向努力對我們的幫助更大呢?為了解決這個(gè)問題,我從和鯨社區(qū)拿到一份拉鉤網(wǎng)一部分關(guān)于上海數(shù)據(jù)分析師招聘的數(shù)據(jù),希望能從數(shù)據(jù)中挖掘出一些對我們有幫助的信息。

數(shù)據(jù)情況

現(xiàn)有一個(gè)csv文件,共450條數(shù)據(jù),包含9個(gè)字段。分別為:職位名稱、詳細(xì)鏈接 、工作地點(diǎn) 、薪資、公司名稱、經(jīng)驗(yàn)要求 、學(xué)歷 、福利 、職位信息。

分析目的

根據(jù)常識(shí),我們知道數(shù)據(jù)分析師的薪資與工作年限和學(xué)歷密切相關(guān),且大部分公司對分析師本身的技能有嚴(yán)格的要求,那么我們?nèi)绻肽玫揭环菰滦絏X元的分析師崗位需要具備什么樣的條件呢?通過探究以下幾個(gè)問題,我們或許能找到答案。

1、學(xué)歷對分析師的薪資影響有多大?

2、工作年限對分析師的薪資影響有多大?

3、不同區(qū)域?qū)Ψ治鰩煹挠绊懹卸啻螅?/strong>

4、分析師崗位需要具備的基本技能是什么?

分析過程

a、數(shù)據(jù)清洗

數(shù)據(jù)預(yù)覽如下:

1.png

將薪資按照平均值清洗成數(shù)值格式。并提取出職位中要求的相關(guān)技能,這里只提取Excel、sql、Python、tableau這些常見的技能要求。

代碼如下:

import pandas
import re
import numpy as np
file=r'D:\python材料\機(jī)器學(xué)習(xí)\和鯨數(shù)據(jù)\拉勾網(wǎng)數(shù)據(jù)分析師職位數(shù)據(jù)\拉鉤網(wǎng)招聘_關(guān)鍵詞_數(shù)據(jù)分析_城市_上海.csv'
data=pandas.read_csv(file,encoding='utf8')

def jineng(dataframe):
    string=str(dataframe).lower()
    d=re.findall('sql|excel|tableau|python',string)
    if len(set(d))==0 :
        d=0
    else :
        d=str(set(d))
    return d

data['salary_min']=data.薪資.apply(lambda x:int(x.lower().replace('k','').split('-')[0]))
data['salary_max']=data.薪資.apply(lambda x:int(x.lower().replace('k','').split('-')[1]))
data['salary_mean']=(data['salary_min']+data['salary_max'])/2

data['re']=0
data['re']=data['職位信息'].apply(jineng)

#統(tǒng)計(jì)對各個(gè)技能的需求量
for k in ['sql','excel','tableau','python'] :
    data[k]=data['re'].apply(lambda x: 1 if k in str(x) else 0 )
data.head(10) #預(yù)覽前十條數(shù)據(jù)

b、學(xué)歷對分析師的薪資影響有多大?

因?yàn)閿?shù)據(jù)中有一部分實(shí)習(xí)崗位,且實(shí)習(xí)崗位薪資較低,對整體結(jié)果會(huì)有影響,這里就把實(shí)習(xí)類崗位刪除,只保留正式崗位。

代碼如下:

data2=data[~data.職位名稱.str.contains('實(shí)習(xí)')]

查看分析師崗位對各個(gè)學(xué)歷的需求及個(gè)學(xué)歷段的薪資:

print(data2.學(xué)歷.value_counts())
#各學(xué)歷段的需求量
本科    348
不限     33
碩士     29
大專     17
#本科占總需求量的比重
print(348/len(data2))
0.8149882903981265

從該數(shù)據(jù)樣本看,數(shù)據(jù)分析師崗位對學(xué)歷的要求沒有那么高,本科的學(xué)歷就可以滿足大部分企業(yè)的要求。

c=pandas.pivot_table(data2,index='學(xué)歷',values='salary_mean',aggfunc=[np.mean])
print(c)
c.plot(kind='bar')

   salary_mean
學(xué)歷            
不限   20.121212
大專   16.705882
本科   21.803161
碩士   20.189655
2.png

這里本科生的平均薪資比碩士的平均薪資要高,與我們的常識(shí)相違背,可能是樣本數(shù)量太小,導(dǎo)致這種隨機(jī)誤差出現(xiàn)。不過當(dāng)我們把年限數(shù)據(jù)放進(jìn)來之后,會(huì)發(fā)現(xiàn)研究生的薪資是要高于本科生的,后邊會(huì)提到。

c、工作年限對分析師的薪資影響有多大?

d=pandas.pivot_table(data2,index='經(jīng)驗(yàn)要求',values='salary_mean',aggfunc=[np.mean])
index_li=['1-3年','3-5年','5-10年']
d=d[d.index.isin(index_li)]
d.plot(kind='bar')
print(d)

      salary_mean
經(jīng)驗(yàn)要求             
1-3年    17.072072
3-5年    22.121827
5-10年   31.918033
3.png

? 除了“1-3年、3-5年、5-10年”外,其他年限的數(shù)據(jù)量過小,統(tǒng)計(jì)出來不能反映真實(shí)情況,因此沒進(jìn)行統(tǒng)計(jì)。僅看年限的話,對薪資的影響程度遠(yuǎn)高于學(xué)歷。并且三年、五年是兩個(gè)分界點(diǎn),達(dá)到三年和五年的界限后薪資普遍有一個(gè)跨越式增長(分別漲薪30%、40%)。所以達(dá)到這個(gè)時(shí)間點(diǎn)的小伙伴要有意識(shí)的衡量自己目前的薪資與市場的情況,來對比自己所處的水平。

? 那么達(dá)到一定年限后,是不是學(xué)歷越高,薪資水平提升的越多呢。

c=pandas.pivot_table(data2,index='經(jīng)驗(yàn)要求',values='salary_mean',columns='學(xué)歷',aggfunc=[np.mean])
index_li=['1-3年','3-5年','5-10年']
c=c[c.index.isin(index_li)]
c.plot(kind='bar')
print(c)
學(xué)歷            不限       大專         本科     碩士
經(jīng)驗(yàn)要求                                       
1-3年   20.000000  12.8000  16.967742  19.00
3-5年   23.615385  16.8125  22.048193  25.65
5-10年  27.750000  32.5000  31.946429  35.00
4.png

很明顯,學(xué)歷越高,在相同工作年限下薪資越高,這里主要對比本科與研究生的薪資差別,不過學(xué)歷上的影響低于年限上的影響。且因?yàn)楸疚牟捎玫臄?shù)據(jù)樣本較小,對真實(shí)情況的描述有偏差,下次選用更大的數(shù)據(jù)集進(jìn)行分析。

d、不同區(qū)域?qū)Ψ治鰩煹挠绊懹卸啻螅?/h3>
area=pandas.pivot_table(data2,index='工作地點(diǎn)',values='salary_mean',aggfunc=[np.mean,len])
area.columns=['salary_mean','len']
area=area.sort_values(by='salary_mean',ascending=False)
print(area)
      salary_mean    len
工作地點(diǎn)                    
松江區(qū)     30.000000    1.0
青浦區(qū)     28.166667    3.0
虹口區(qū)     23.660000   25.0
閔行區(qū)     22.803030   33.0
浦東新區(qū)    22.600775  129.0
長寧區(qū)     21.436170   47.0
楊浦區(qū)     20.890625   32.0
黃浦區(qū)     20.444444   27.0
徐匯區(qū)     20.358025   81.0
靜安區(qū)     19.578947   19.0
普陀區(qū)     18.392857   14.0
寶山區(qū)     16.500000    6.0
嘉定區(qū)     15.750000    2.0
閘北區(qū)     13.750000    8.0
#僅保留需求量在20次以上的區(qū)域
area1=area[area.len>=20]
print(area1)
#結(jié)果
salary_mean    len
工作地點(diǎn)                    
虹口區(qū)     23.660000   25.0
閔行區(qū)     22.803030   33.0
浦東新區(qū)    22.600775  129.0
長寧區(qū)     21.436170   47.0
楊浦區(qū)     20.890625   32.0
黃浦區(qū)     20.444444   27.0
徐匯區(qū)     20.358025   81.0

不同區(qū)域間的薪資差別還是有的,考慮到房租因素,比較推薦在浦東新區(qū)找工作,薪資高且需求量大,房租比其他地方高出的部分小于工資增長的部分。

e、分析師崗位需要具備的基本技能是什么?

data_skill=data2[['學(xué)歷','salary_mean','sql','excel','tableau','python']]
salary_cut=pandas.cut(data_skill['salary_mean'],bins=[0,5,10,15,20,25,30,35,80]) #根據(jù)薪資水平進(jìn)行分段,以次查看不同薪資段的要求有沒有不同
salary_cut.name='salary_cut'
result=pandas.concat([data_skill,salary_cut],axis=1) #分段完成

result=result[['sql','excel','tableau','python','salary_cut']]
result['salary_cut']=result['salary_cut'].apply(lambda x:str(x))

count=result['salary_cut'].value_counts()
pivot=pandas.pivot_table(result,index='salary_cut',aggfunc=[sum])

skill=pandas.concat([pivot,count],axis=1)   #對數(shù)據(jù)做透視并求出各技能要求的數(shù)量
skill.columns=['excel','python','sql','tableau','sum'] #字段重命名
#處理后數(shù)據(jù)如下
index excel python sql tableau sum
(0, 5] 14 13 16 0 24
(5, 10] 16 10 20 4 35
(10, 15] 20 35 48 9 77
(15, 20] 24 49 58 8 90
(20, 25] 25 56 77 15 100
(25, 30] 3 21 28 8 44
(30, 35] 0 8 10 0 16
(35, 80] 4 17 21 4 26

各項(xiàng)技能需求占比:

index excel_rate python_rate sql_rate tableau_rate
(0,5] 58% 54% 67% 0%
(5,10] 46% 29% 57% 11%
(10,15] 26% 45% 62% 12%
(15,20] 27% 54% 64% 9%
(20,25] 25% 56% 77% 15%
(25,30] 7% 48% 64% 18%
(30,35] 0% 50% 63% 0%
(35,80] 15% 65% 81% 15%

我們發(fā)現(xiàn):

(1)在薪資較低的崗位(5-10K)對Excel技能要求較高,薪資越高的崗位對excel技能反而不強(qiáng)調(diào)了。結(jié)合實(shí)際看,這種情形是因?yàn)榈图?jí)的分析師大多使用excel進(jìn)行分析,雖然任職要求上要求有Python等技能,但不會(huì)也不影響實(shí)際工作。

(2)不管什么薪資段的分析師崗位,都要求分析師會(huì)使用Python與sql,但對sql的需求度要高于Python,因此各位小伙伴注意提升自己的sql技能。

(3)tableau這類工具僅有部分公司要求必須掌握,大家根據(jù)自己的情況進(jìn)行學(xué)習(xí)。

分析結(jié)論

1、絕大部分分析師崗位都要求本科以上學(xué)歷,少數(shù)還不限制學(xué)歷,入門門檻并不是特別高,且學(xué)歷越高薪資會(huì)越高。

2、分析師的工作年限對薪資影響巨大,且滿3年、5年薪資會(huì)有一個(gè)巨大的提升。

3、在上海各個(gè)區(qū)之間分析師的薪資和需求量有明顯差異,建議在黃浦新區(qū)找工作,薪資高、機(jī)會(huì)多。

4、技能方面,肯定會(huì)的越多越好,必須要熟練掌握的技能優(yōu)先級(jí)excel > sql > python 。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 前言: 數(shù)據(jù)分析相關(guān)的知識(shí)已經(jīng)學(xué)了一段時(shí)間了,但是一直沒有做過完整的項(xiàng)目分析。在思考后我選擇了現(xiàn)階段最關(guān)心...
    精神領(lǐng)袖_7691閱讀 1,357評(píng)論 0 1
  • 一、背景 政治(Politics):目前全國有二十多各地區(qū)出臺(tái)了大數(shù)據(jù)相關(guān)的政策,而且很多地區(qū)都設(shè)立了專門的大數(shù)據(jù)...
    Z141241閱讀 5,368評(píng)論 0 0
  • 前言:對一個(gè)運(yùn)營人來說,數(shù)據(jù)可以監(jiān)測店鋪運(yùn)營狀態(tài),可以幫助制定經(jīng)營目標(biāo),數(shù)據(jù)分析是運(yùn)營工作的必須掌握的一項(xiàng)技能。 ...
    查瑤閱讀 1,080評(píng)論 0 0
  • 招聘網(wǎng)站數(shù)據(jù)分析師職位分析 (一) 提出問題 1. 在那些城市找到數(shù)據(jù)分析師的機(jī)會(huì)比較大? 2. 數(shù)據(jù)分析師的薪水...
    還我喵喵拳閱讀 494評(píng)論 0 1
  • 久違的晴天,家長會(huì)。 家長大會(huì)開好到教室時(shí),離放學(xué)已經(jīng)沒多少時(shí)間了。班主任說已經(jīng)安排了三個(gè)家長分享經(jīng)驗(yàn)。 放學(xué)鈴聲...
    飄雪兒5閱讀 7,868評(píng)論 16 22

友情鏈接更多精彩內(nèi)容