轉(zhuǎn)載請注明地址:用python對鹿晗微博進(jìn)行數(shù)據(jù)分析
這篇文章主要對數(shù)據(jù)進(jìn)行簡單的分析,代碼在這里:
python利用pandas、matplotlib和wordcloud做數(shù)據(jù)分析
- 準(zhǔn)備分析的數(shù)據(jù):
|----評論者的微博昵稱
|----微博的評論
|----評論者的性別
|----評論者的所在地
|----評論者的生日
這次的數(shù)據(jù)準(zhǔn)備了30萬+評論,其中不重復(fù)用戶14萬+。數(shù)據(jù)只是簡單的進(jìn)行了簡單的去重和缺失值處理,感覺不用特別精確也能看出結(jié)果。這次的分析不是最終的結(jié)果,只是可以參考的一個趨勢
用戶分析
-
首先來看看評論最多的前幾名
我的天,一個人一條微博評論800+,這是不用吃飯嗎。。。
不知道前三十里面是不是全是真愛??!
-
再來看看評論數(shù)的折線圖
- 感覺在平穩(wěn)的折線取值分析比較靠譜,所以放大了看看。
-
14萬數(shù)據(jù),出現(xiàn)一人幾百條的也就那幾個,所以把他們篩選掉。
- 在1000左右,人均的評論數(shù)差不多在20左右,才感覺不會是刷出來的。
-
再看看性別,毫無疑問的。
- 感覺這個結(jié)果還算正常,比計(jì)算機(jī)專業(yè)男女比大一點(diǎn)。
-
之后再來說年齡分布
- 由于微博默認(rèn)生日的原因,有好幾個突出點(diǎn),可以忽略,我也把范圍截取到了1949年-2017年。
- 90后的峰值我預(yù)料到了,但是沒想到00后會降的這么明顯。難道真的都喜歡TF?本來想在爬一下TF的看看,不過感覺大同小異就沒有再做。
-
之后看看具體排名吧:
- 第一是98年的同學(xué),不過前幾名差距不是很大,可能跟采集的數(shù)據(jù)有關(guān)系。
- 可以看出來00后只有 00、01、02在堅(jiān)守陣地了。
- 90后真的老了嗎。。。。。
-
最后來看看地區(qū)分析吧
- 先來看看省份和四個直轄市分布,北京第一,有一點(diǎn)可能好多人都改成了和鹿晗一樣的東城區(qū)。。。所以可能不是很準(zhǔn)確。
- 其次是廣東,不知道為什么,好多刷量小號默認(rèn)位置也是廣東,不知是不是這個原因和北京并列。
- 河北排在了第9。。。
再來看看城市分布

- 海淀區(qū)居然是第一,這個沒有想到。
- 基本上分三個梯隊(duì)吧,石家莊在第三梯隊(duì)。
- 很尷尬的是,分詞的時(shí)候把大連給分了?
最后看看整體城市分布比例吧,感覺石家莊有點(diǎn)小啊。

評論分析

- 從詞云上可以看出來,評論中出現(xiàn)最多的詞是鹿晗,這點(diǎn)并不意外。
- 其次,音樂,愛,零界點(diǎn),棒棒糖等詞也排在前面,我想是因?yàn)檫@次爬取得微博是棒棒糖那篇。
- 另外中間右部,
迪麗也出現(xiàn)了,可能八卦的網(wǎng)友也不少啊。 - 整體感覺比較正能量,黑粉還是要少的多。
整體分析差不多就這樣了,第一個項(xiàng)目做的有點(diǎn)慢,下次計(jì)劃分析一下淘寶的商品信息,不過爬數(shù)據(jù)要花時(shí)間,可能會很久了。






