2019-03-01(未完成)

最近在學(xué)習(xí)數(shù)據(jù)分析,接觸到知乎上知友“”的內(nèi)容,有一篇是他將豆瓣上6萬本書籍基礎(chǔ)信息爬到并且分享給大家(鏈接:),于是自己也想以這部分?jǐn)?shù)據(jù)為例,以我自己對數(shù)據(jù)分析的方法論,實(shí)踐一次。

前提有個說明,是因?yàn)椴恢浪且允裁礃拥囊?guī)則爬取的,所以樣本可能有偏差,但這不可避免,因此不再討論。

出發(fā)點(diǎn)

數(shù)據(jù)分析第一步:知道自己為什么要分析。

分析的目的是為了解決一個業(yè)務(wù)問題、驗(yàn)證一個假設(shè)、發(fā)現(xiàn)一個探索性的規(guī)律等,而不是為了分析而分析。

所以我給自己預(yù)設(shè)一個場景:我是一個圖書愛好者,希望能從這里面找到好書;以及我是一個出版行業(yè)的入門者,希望能從這里面的數(shù)據(jù)探索一些趨勢,增加對初版行業(yè)的了解。

初始數(shù)據(jù)的整理

拿到這張表,我發(fā)現(xiàn)表格還是需要整理的,例如:

1、作者里面有出現(xiàn)作者和譯者信息的情況、有多個作者的情況;

2、出版時間有多種格式

3、價格有不同類型的價格(如臺幣)、貨幣的不同表現(xiàn)方法

4、...

因此需要對數(shù)據(jù)做基礎(chǔ)的清晰和整理,使之成為一張可以分析的表格。

但在實(shí)際清理過程中發(fā)現(xiàn),直接在原數(shù)據(jù)里做清理,工作量和難度都很大,因此決定先做正常分析,分析過程中發(fā)現(xiàn)有誤差的情況下,再做處理。這樣靈活性更高,并且顯著降低工作量。

分析

1、我想知道哪些書是好書

首先從圖書分值分布來看,整體打分是符合正項(xiàng)分布的。另外也能看到一個異常:約有6600本書目前還是0分,即還沒有人看,占比超過了10%。

單看正項(xiàng)分布的區(qū)域,發(fā)現(xiàn)大部分書籍的評價是在7.4-8.7分左右,因此可以初步猜測當(dāng)一本書分?jǐn)?shù)小于7.4分且評價人數(shù)不是過低(比如低于200、300),可能內(nèi)容質(zhì)量就已經(jīng)不高;而高于8.7且有很多人看的書,基本可以判斷為很高質(zhì)量的書籍了。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 第三章 數(shù)據(jù)庫系統(tǒng) 3.1 數(shù)據(jù)庫管理系統(tǒng)的類型 通常有多個分類標(biāo)準(zhǔn)。如按數(shù)據(jù)模型分類、按用戶數(shù)分類、按數(shù)據(jù)庫分布...
    步積閱讀 3,137評論 0 7
  • 我今天看完了長青藤的生日快樂明日香,這個故事講的就是明香受到她媽媽的冷漠,但最后變得快樂了起來。她媽媽也改變...
    R琳茜閱讀 1,530評論 0 0
  • 'double' 類型的輸入?yún)?shù)相對應(yīng)的函數(shù) 'zero'。 ----- 沒有zero函數(shù) ,其實(shí)應(yīng)輸入zeros
    Clemente閱讀 824評論 0 0
  • 我今天做了一個選擇,不知道正不正確。之前和同學(xué)一起參加了一個比賽,全程都是抱人家大腿,人家又有另外一個大腿...
    七月生吾閱讀 318評論 0 0
  • 上周六的時候,帶兒子去電影院看新版的《美女與野獸》。 本來他就是沖著野獸去的。 所以時間一長,碰到沉悶的人物對話時...
    郇卿閱讀 432評論 0 1

友情鏈接更多精彩內(nèi)容