12. 其他數(shù)據(jù)科學(xué)任務(wù)和技術(shù)

fundamental concepts:our fundamental concepts as the basis of many common data science techniques(我們的基本概念是許多常用數(shù)據(jù)科學(xué)技術(shù)的基礎(chǔ));the importance of familiarity with the building blocks of data science(熟悉數(shù)據(jù)科學(xué)的組成部分的重要性)

exemplary techniques:association and co-occurrences (聯(lián)合與共現(xiàn));behavior profiling(行為分析);link prediction(鏈路預(yù)測);data reduction(數(shù)據(jù)縮減);latent information mining(潛在信息挖掘);movie recommendation;Bias-variance decomposition of error(誤差的偏差方差分解);ensembles of models(模型集合);causal reasoning from data(基于數(shù)據(jù)的因果推理)。


Co-occurrences and?Association:Finding Items That Go together

measuring surprise:lift and leverage(提升和杠桿作用)

lift:關(guān)聯(lián)關(guān)系發(fā)生的概率比隨機概率大的數(shù)量,lift計算公式如下12-1:

Lift(A,B)=\frac{p(A,B)}{p(A)\cdot p(B)}

另一個衡量共現(xiàn)性的方法叫l(wèi)everage,是用兩者的差值代替比值來實現(xiàn)公式化,如下12-2:

Leverage(A,B)=p(B,A)-p(A)p(B)

lift和leverage一個更適合共現(xiàn)概率高的情況,一個更適合概率低的情況,這里的p(A,B)可以考慮為后驗概率,{p(A)\cdot p(B)} 可以看做先驗概率,所以樣本空間畫圖時只能表現(xiàn)先驗概率,本人還不能畫出p(A,B)。

Example:Beer and Lottery Tickets(例如:啤酒和彩票)

p(beer)=0.3?and?p(lottery-ticket)=0.4,兩個一起買的先驗概率就是0.12,實際上兩個一起買的出現(xiàn)頻率是0.2,那么可以計算出lift=1.67?andleverage=0.08。

兩者一起購買的support=0.2,strength=67%,strength=p(lottery-ticket\vert beer)=0.67(算法大概是0.4*1.67,就是獨立概率乘以lift值)

Associations Among Facebook Likes(Facebook喜歡間的關(guān)聯(lián))

從用戶對不同喜好的關(guān)聯(lián)的參數(shù)(包括support、strength、lift、leverage)來統(tǒng)計這些獨立的明星個體間的關(guān)聯(lián)程度。


Profiling:Finding Typical Behavior(分析:查找典型行為)

關(guān)鍵詞:

均值偏離:由于數(shù)據(jù)分布的長尾效應(yīng)導(dǎo)致的均值偏差,此時可使用中位數(shù)替代;

log(logarithm)變式:可以對數(shù)據(jù)統(tǒng)一進行l(wèi)og轉(zhuǎn)換后,將數(shù)據(jù)分布的形態(tài)進行轉(zhuǎn)換,以使結(jié)論更顯著;

高斯分布(Gaussian distribution):一般指正態(tài)分布;

高斯混合模型(Gaussian Mixture Model)(GMM):高斯模型就是用高斯概率密度函數(shù)正態(tài)分布曲線)精確地量化事物,將一個事物分解為若干的基于高斯概率密度函數(shù)(正態(tài)分布曲線)形成的模型。 對圖像背景建立高斯模型的原理及過程:圖像灰度直方圖反映的是圖像中某個灰度值出現(xiàn)的頻次,也可以以為是圖像灰度概率密度的估計。如果圖像所包含的目標(biāo)區(qū)域和背景區(qū)域相差比較大,且背景區(qū)域和目標(biāo)區(qū)域在灰度上有一定的差異,那么該圖像的灰度直方圖呈現(xiàn)雙峰-谷形狀,其中一個峰對應(yīng)于目標(biāo),另一個峰對應(yīng)于背景的中心灰度。對于復(fù)雜的圖像,尤其是醫(yī)學(xué)圖像,一般是多峰的。通過將直方圖的多峰特性看作是多個高斯分布的疊加,可以解決圖像的分割問題。 在智能監(jiān)控系統(tǒng)中,對于運動目標(biāo)的檢測是中心內(nèi)容,而在運動目標(biāo)檢測提取中,背景目標(biāo)對于目標(biāo)的識別和跟蹤至關(guān)重要。而建模正是背景目標(biāo)提取的一個重要環(huán)節(jié)。(摘自百度百科)


Link Prediction and Social Recommendation(鏈路預(yù)測與社會推薦)

講了好友推薦的一些內(nèi)容,over

Data Reduction,Latent Information,and Movie Recommendation(數(shù)據(jù)縮減、潛在信息和電影推薦)

圖12-5 一個根據(jù)電影特征組成的而為分布圖,觀眾也可以基于對視頻的評分或瀏覽記錄被放到這個平面當(dāng)中。

這里講了一些視頻推薦的理論,比較表面,想要深入了解的可以參考《用戶網(wǎng)絡(luò)行為畫像》(牛溫佳)。


Bias,Variance,and Ensemble Methods(偏差、方差和集成方法)

Ensemble Methods就是把多個模型組合使用,多數(shù)情況下可以提高預(yù)測精度。

導(dǎo)致模型預(yù)測偏差的典型特征:

1. 內(nèi)在隨機性;2. 偏離;3. 方差。


Data-Driven Causal Explanation and a Viral Marketing Example(數(shù)據(jù)驅(qū)動的因果解釋與病毒式營銷案例)

有社會關(guān)系關(guān)聯(lián)的人,會有類似的產(chǎn)品偏好。


summary

本章結(jié)束,summary里面沒啥。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容