最近在學(xué)習(xí)數(shù)據(jù)分析,接觸到知乎上知友“”的內(nèi)容,有一篇是他將豆瓣上6萬本書籍基礎(chǔ)信息爬到并且分享給大家(鏈接:),于是自己也想以這部分?jǐn)?shù)據(jù)為例,以我自己對數(shù)據(jù)分析的方法論,實(shí)踐一次。
前提有個說明,是因?yàn)椴恢浪且允裁礃拥囊?guī)則爬取的,所以樣本可能有偏差,但這不可避免,因此不再討論。
出發(fā)點(diǎn)
數(shù)據(jù)分析第一步:知道自己為什么要分析。
分析的目的是為了解決一個業(yè)務(wù)問題、驗(yàn)證一個假設(shè)、發(fā)現(xiàn)一個探索性的規(guī)律等,而不是為了分析而分析。
所以我給自己預(yù)設(shè)一個場景:我是一個圖書愛好者,希望能從這里面找到好書;以及我是一個出版行業(yè)的入門者,希望能從這里面的數(shù)據(jù)探索一些趨勢,增加對初版行業(yè)的了解。
初始數(shù)據(jù)的整理
拿到這張表,我發(fā)現(xiàn)表格還是需要整理的,例如:
1、作者里面有出現(xiàn)作者和譯者信息的情況、有多個作者的情況;
2、出版時間有多種格式
3、價格有不同類型的價格(如臺幣)、貨幣的不同表現(xiàn)方法
4、...
因此需要對數(shù)據(jù)做基礎(chǔ)的清晰和整理,使之成為一張可以分析的表格。
但在實(shí)際清理過程中發(fā)現(xiàn),直接在原數(shù)據(jù)里做清理,工作量和難度都很大,因此決定先做正常分析,分析過程中發(fā)現(xiàn)有誤差的情況下,再做處理。這樣靈活性更高,并且顯著降低工作量。
分析
1、我想知道哪些書是好書
首先從圖書分值分布來看,整體打分是符合正項(xiàng)分布的。另外也能看到一個異常:約有6600本書目前還是0分,即還沒有人看,占比超過了10%。
單看正項(xiàng)分布的區(qū)域,發(fā)現(xiàn)大部分書籍的評價是在7.4-8.7分左右,因此可以初步猜測當(dāng)一本書分?jǐn)?shù)小于7.4分且評價人數(shù)不是過低(比如低于200、300),可能內(nèi)容質(zhì)量就已經(jīng)不高;而高于8.7且有很多人看的書,基本可以判斷為很高質(zhì)量的書籍了。
