數(shù)據(jù)分析的基礎(chǔ)概念和模型 |《深入淺出數(shù)據(jù)分析》

這本書目前豆瓣評(píng)分7.6,理論上我不想拿8.0以下的書入門(最好是8.5以上)。所以猶豫了很久,但是讀完發(fā)現(xiàn)這本書作為入門是很好的。如書中所說,這本書關(guān)注的是假設(shè)和建模范圍的事情,能清楚地解釋概念、模型,且能講得通俗有趣,已經(jīng)很不錯(cuò)了。豆瓣評(píng)分低大概是覺得太淺吧。

圖片發(fā)自簡(jiǎn)書App

核心概念

  • 創(chuàng)建模型時(shí),務(wù)必要規(guī)定假設(shè)中的各種變量的相互關(guān)系。不要假定兩個(gè)變量是不相關(guān)的。# 變量間關(guān)系
  • 定義主觀意愿?# 約束條件定義什么 容易忽略的約束條件
    例如某廠生產(chǎn)橡皮鴨和橡皮魚,求問怎樣的產(chǎn)量組合能獲得最大利潤。約束條件容易考慮橡膠量、生產(chǎn)時(shí)間、利潤,容易忽略人們對(duì)兩種產(chǎn)品的購買意愿。例如魚的利潤小但暢銷,若追求利潤最大而生產(chǎn)很多魚但賣不出去,依然無法利潤最大。
  • 散點(diǎn)圖可判斷因果關(guān)系,體現(xiàn)關(guān)系,但不能直接反映為什么兩者有關(guān)
  • 因果關(guān)系通常是網(wǎng)狀的,不是線性的
  • 隨機(jī)事件

模型

最優(yōu)化模型

  • 用途:給定約束條件下,求怎樣的變量組合得到最優(yōu)解
  • excel -> solver

貝葉斯規(guī)則

  • 用途:可以把新信息整合到已知信息中,修正主觀概率:即在已有一個(gè)假設(shè)的概率時(shí),新證據(jù)出現(xiàn)時(shí),該假設(shè)還成立的概率。關(guān)鍵是求(估算):假設(shè)成立的條件下,新證據(jù)出現(xiàn)的概率

回歸

  • 用途:線性回歸、非線性等
  • 均方根差表示散點(diǎn)和回歸線的差異,即線性回歸的誤差區(qū)間。

工具

散點(diǎn)圖

  • 判斷因果關(guān)系。y軸結(jié)果,x軸原因

證偽法

  • 用途:

1 用于幾種假設(shè)都沒有強(qiáng)烈證據(jù)支持的時(shí)候。區(qū)別于滿意法,即挑一個(gè)覺得證據(jù)多的假設(shè)為真。這有可能忽略該假設(shè)反面證據(jù),或者漏掉其他假設(shè)的支持證據(jù)。( which is 大多數(shù)人決策會(huì)使用的方法)

2 對(duì)一種未知情況做判斷,可以提出幾種具體假設(shè)再證偽。
例如 iPhone 何時(shí)發(fā)布

啟發(fā)法與最優(yōu)解

  • 用途:其中一種:別人用啟發(fā)法來決策、給任務(wù)時(shí),如果無法量化結(jié)果,可以選擇說服對(duì)方換一種啟發(fā)法。

直方圖

  • 數(shù)據(jù)點(diǎn)在數(shù)值范圍內(nèi)的分布。(有多少人薪資在15k+,多少在30k+...)

軟件

  • excel: 可以分隔數(shù)據(jù)(例如以分隔符隔開時(shí))
  • R軟件
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容