用python對鹿晗微博進(jìn)行數(shù)據(jù)分析

轉(zhuǎn)載請注明地址:用python對鹿晗微博進(jìn)行數(shù)據(jù)分析
這篇文章主要對數(shù)據(jù)進(jìn)行簡單的分析,代碼在這里:
python利用pandas、matplotlib和wordcloud做數(shù)據(jù)分析

  • 準(zhǔn)備分析的數(shù)據(jù):
    |----評論者的微博昵稱
    |----微博的評論
    |----評論者的性別
    |----評論者的所在地
    |----評論者的生日

這次的數(shù)據(jù)準(zhǔn)備了30萬+評論,其中不重復(fù)用戶14萬+。數(shù)據(jù)只是簡單的進(jìn)行了簡單的去重和缺失值處理,感覺不用特別精確也能看出結(jié)果。這次的分析不是最終的結(jié)果,只是可以參考的一個趨勢

用戶分析

  • 首先來看看評論最多的前幾名


  • 我的天,一個人一條微博評論800+,這是不用吃飯嗎。。。

  • 不知道前三十里面是不是全是真愛??!


  • 再來看看評論數(shù)的折線圖


  • 感覺在平穩(wěn)的折線取值分析比較靠譜,所以放大了看看。
  • 14萬數(shù)據(jù),出現(xiàn)一人幾百條的也就那幾個,所以把他們篩選掉。


  • 在1000左右,人均的評論數(shù)差不多在20左右,才感覺不會是刷出來的。

  • 再看看性別,毫無疑問的。


  • 感覺這個結(jié)果還算正常,比計(jì)算機(jī)專業(yè)男女比大一點(diǎn)。

  • 之后再來說年齡分布


  • 由于微博默認(rèn)生日的原因,有好幾個突出點(diǎn),可以忽略,我也把范圍截取到了1949年-2017年。
  • 90后的峰值我預(yù)料到了,但是沒想到00后會降的這么明顯。難道真的都喜歡TF?本來想在爬一下TF的看看,不過感覺大同小異就沒有再做。
  • 之后看看具體排名吧:


  • 第一是98年的同學(xué),不過前幾名差距不是很大,可能跟采集的數(shù)據(jù)有關(guān)系。
  • 可以看出來00后只有 00、01、02在堅(jiān)守陣地了。
  • 90后真的老了嗎。。。。。

  • 最后來看看地區(qū)分析吧


  • 先來看看省份和四個直轄市分布,北京第一,有一點(diǎn)可能好多人都改成了和鹿晗一樣的東城區(qū)。。。所以可能不是很準(zhǔn)確。
  • 其次是廣東,不知道為什么,好多刷量小號默認(rèn)位置也是廣東,不知是不是這個原因和北京并列。
  • 河北排在了第9。。。

再來看看城市分布

  • 海淀區(qū)居然是第一,這個沒有想到。
  • 基本上分三個梯隊(duì)吧,石家莊在第三梯隊(duì)。
  • 很尷尬的是,分詞的時(shí)候把大連給分了?

最后看看整體城市分布比例吧,感覺石家莊有點(diǎn)小啊。



評論分析

  • 從詞云上可以看出來,評論中出現(xiàn)最多的詞是鹿晗,這點(diǎn)并不意外。
  • 其次,音樂,愛,零界點(diǎn),棒棒糖等詞也排在前面,我想是因?yàn)檫@次爬取得微博是棒棒糖那篇。
  • 另外中間右部,迪麗也出現(xiàn)了,可能八卦的網(wǎng)友也不少啊。
  • 整體感覺比較正能量,黑粉還是要少的多。

整體分析差不多就這樣了,第一個項(xiàng)目做的有點(diǎn)慢,下次計(jì)劃分析一下淘寶的商品信息,不過爬數(shù)據(jù)要花時(shí)間,可能會很久了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容