fundamental concepts:our fundamental concepts as the basis of many common data science techniques(我們的基本概念是許多常用數(shù)據(jù)科學(xué)技術(shù)的基礎(chǔ));the importance of familiarity with the building blocks of data science(熟悉數(shù)據(jù)科學(xué)的組成部分的重要性)
exemplary techniques:association and co-occurrences (聯(lián)合與共現(xiàn));behavior profiling(行為分析);link prediction(鏈路預(yù)測);data reduction(數(shù)據(jù)縮減);latent information mining(潛在信息挖掘);movie recommendation;Bias-variance decomposition of error(誤差的偏差方差分解);ensembles of models(模型集合);causal reasoning from data(基于數(shù)據(jù)的因果推理)。
Co-occurrences and?Association:Finding Items That Go together
measuring surprise:lift and leverage(提升和杠桿作用)
lift:關(guān)聯(lián)關(guān)系發(fā)生的概率比隨機概率大的數(shù)量,lift計算公式如下12-1:
另一個衡量共現(xiàn)性的方法叫l(wèi)everage,是用兩者的差值代替比值來實現(xiàn)公式化,如下12-2:
lift和leverage一個更適合共現(xiàn)概率高的情況,一個更適合概率低的情況,這里的可以考慮為后驗概率,
可以看做先驗概率,所以樣本空間畫圖時只能表現(xiàn)先驗概率,本人還不能畫出
。
Example:Beer and Lottery Tickets(例如:啤酒和彩票)
?and?
,兩個一起買的先驗概率就是0.12,實際上兩個一起買的出現(xiàn)頻率是0.2,那么可以計算出
?and
。
兩者一起購買的support=0.2,strength=67%,(算法大概是0.4*1.67,就是獨立概率乘以lift值)
Associations Among Facebook Likes(Facebook喜歡間的關(guān)聯(lián))
從用戶對不同喜好的關(guān)聯(lián)的參數(shù)(包括support、strength、lift、leverage)來統(tǒng)計這些獨立的明星個體間的關(guān)聯(lián)程度。
Profiling:Finding Typical Behavior(分析:查找典型行為)
關(guān)鍵詞:
均值偏離:由于數(shù)據(jù)分布的長尾效應(yīng)導(dǎo)致的均值偏差,此時可使用中位數(shù)替代;
log(logarithm)變式:可以對數(shù)據(jù)統(tǒng)一進行l(wèi)og轉(zhuǎn)換后,將數(shù)據(jù)分布的形態(tài)進行轉(zhuǎn)換,以使結(jié)論更顯著;
高斯分布(Gaussian distribution):一般指正態(tài)分布;
高斯混合模型(Gaussian Mixture Model)(GMM):高斯模型就是用高斯概率密度函數(shù)(正態(tài)分布曲線)精確地量化事物,將一個事物分解為若干的基于高斯概率密度函數(shù)(正態(tài)分布曲線)形成的模型。 對圖像背景建立高斯模型的原理及過程:圖像灰度直方圖反映的是圖像中某個灰度值出現(xiàn)的頻次,也可以以為是圖像灰度概率密度的估計。如果圖像所包含的目標(biāo)區(qū)域和背景區(qū)域相差比較大,且背景區(qū)域和目標(biāo)區(qū)域在灰度上有一定的差異,那么該圖像的灰度直方圖呈現(xiàn)雙峰-谷形狀,其中一個峰對應(yīng)于目標(biāo),另一個峰對應(yīng)于背景的中心灰度。對于復(fù)雜的圖像,尤其是醫(yī)學(xué)圖像,一般是多峰的。通過將直方圖的多峰特性看作是多個高斯分布的疊加,可以解決圖像的分割問題。 在智能監(jiān)控系統(tǒng)中,對于運動目標(biāo)的檢測是中心內(nèi)容,而在運動目標(biāo)檢測提取中,背景目標(biāo)對于目標(biāo)的識別和跟蹤至關(guān)重要。而建模正是背景目標(biāo)提取的一個重要環(huán)節(jié)。(摘自百度百科)
Link Prediction and Social Recommendation(鏈路預(yù)測與社會推薦)
講了好友推薦的一些內(nèi)容,over
Data Reduction,Latent Information,and Movie Recommendation(數(shù)據(jù)縮減、潛在信息和電影推薦)

這里講了一些視頻推薦的理論,比較表面,想要深入了解的可以參考《用戶網(wǎng)絡(luò)行為畫像》(牛溫佳)。
Bias,Variance,and Ensemble Methods(偏差、方差和集成方法)
Ensemble Methods就是把多個模型組合使用,多數(shù)情況下可以提高預(yù)測精度。
導(dǎo)致模型預(yù)測偏差的典型特征:
1. 內(nèi)在隨機性;2. 偏離;3. 方差。
Data-Driven Causal Explanation and a Viral Marketing Example(數(shù)據(jù)驅(qū)動的因果解釋與病毒式營銷案例)
有社會關(guān)系關(guān)聯(lián)的人,會有類似的產(chǎn)品偏好。
summary
本章結(jié)束,summary里面沒啥。