1以下幾種模型方法屬于判別式模型(Discriminative Model)的有( )
1)混合高斯模型
2)條件隨機(jī)場(chǎng)模型
3)區(qū)分度訓(xùn)練
4)隱馬爾科夫模型
A 2,3??B 3,4?C1,4?D1,2
2、Nave Bayes是一種特殊的Bayes分類器,特征變量是X,類別標(biāo)簽是C,它的一個(gè)假定是:()
A各類別的先驗(yàn)概率P(C)是相等的
B以0為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布
C特征變量X的各個(gè)維度是類別條件獨(dú)立隨機(jī)變量
D P(X|C)是高斯分布
3、關(guān)于支持向量機(jī)SVM,下列說(shuō)法錯(cuò)誤的是()
A L2正則項(xiàng),作用是最大化分類間隔,使得分類器擁有更強(qiáng)的泛化能力
B Hinge損失函數(shù),作用是最小化經(jīng)驗(yàn)分類錯(cuò)誤
C分類間隔為1/||w||,||w||代表向量的模
D當(dāng)參數(shù)C越小時(shí),分類間隔越大,分類錯(cuò)誤越多,趨于欠學(xué)習(xí)
4、在HMM中,如果已知觀察序列和產(chǎn)生觀察序列的狀態(tài)序列,那么可用以下哪種方法直接進(jìn)行參數(shù)估計(jì)() ?
A EM算法
B維特比算法
C前向后向算法
D極大似然估計(jì)
5、在Logistic Regression 中,如果同時(shí)加入L1和L2范數(shù),不會(huì)產(chǎn)生什么效果()
A以做特征選擇,并在一定程度上防止過(guò)擬合
B能解決維度災(zāi)難問(wèn)題
C能加快計(jì)算速度
D可以獲得更準(zhǔn)確的結(jié)果
6、機(jī)器學(xué)習(xí)中L1正則化和L2正則化的區(qū)別是?
A使用L1可以得到稀疏的權(quán)值
B使用L1可以得到平滑的權(quán)值
C使用L2可以得到稀疏的權(quán)值
7、位勢(shì)函數(shù)法的積累勢(shì)函數(shù)K(x)的作用相當(dāng)于Bayes判決中的()
A后驗(yàn)概率
B先驗(yàn)概率
C類概率密度
D類概率密度與先驗(yàn)概率的和
8、隱馬爾可夫模型三個(gè)基本問(wèn)題以及相應(yīng)的算法說(shuō)法錯(cuò)誤的是( )
A評(píng)估—前向后向算法
B解碼—維特比算法
C學(xué)習(xí)—Baum-Welch算法
D學(xué)習(xí)—前向后向算法
9、在其他條件不變的前提下,以下哪種做法容易引起機(jī)器學(xué)習(xí)中的過(guò)擬合問(wèn)題?
A增加訓(xùn)練集量
B減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)
C刪除稀疏的特征
DSVM算法中使用高斯核/RBF核代替線性核
10、下列時(shí)間序列模型中,哪一個(gè)模型可以較好地?cái)M合波動(dòng)性的分析和預(yù)測(cè)。
A AR模型
B MA模型
C ARMA模型??D GARCH模型
1正確答案是:A,您的選擇是: B
解析:
常見(jiàn)的判別式模型有:
Logistic regression(logistical 回歸)
Linear discriminant analysis(線性判別分析)
Supportvector machines(支持向量機(jī))
Boosting(集成學(xué)習(xí))
Conditional random fields(條件隨機(jī)場(chǎng))
Linear regression(線性回歸)
Neural networks(神經(jīng)網(wǎng)絡(luò))
常見(jiàn)的生成式模型有:
Gaussian mixture model and othertypes of mixture model(高斯混合及其他類型混合模型)
Hidden Markov model(隱馬爾可夫)
NaiveBayes(樸素貝葉斯)
AODE(平均單依賴估計(jì))
Latent Dirichlet allocation(LDA主題模型)
Restricted Boltzmann Machine(限制波茲曼機(jī))
生成式模型是根據(jù)概率乘出結(jié)果,而判別式模型是給出輸入,計(jì)算出結(jié)果。
2正確答案是:C,解析:
樸素貝葉斯的條件就是每個(gè)變量相互獨(dú)立。
3正確答案是:C,解析:
A正確??紤]加入正則化項(xiàng)的原因:想象一個(gè)完美的數(shù)據(jù)集,y>1是正類,y<-1是負(fù)類,決策面y=0,加入一個(gè)y=-30的正類噪聲樣本,那么決策面將會(huì)變“歪”很多,分類間隔變小,泛化能力減小。加入正則項(xiàng)之后,對(duì)噪聲樣本的容錯(cuò)能力增強(qiáng),前面提到的例子里面,決策面就會(huì)沒(méi)那么“歪”了,使得分類間隔變大,提高了泛化能力。
B正確。
C錯(cuò)誤。間隔應(yīng)該是2/||w||才對(duì),后半句應(yīng)該沒(méi)錯(cuò),向量的模通常指的就是其二范數(shù)。
D正確??紤]軟間隔的時(shí)候,C對(duì)優(yōu)化問(wèn)題的影響就在于把a(bǔ)的范圍從[0,+inf]限制到了[0,C]。C越小,那么a就會(huì)越小,目標(biāo)函數(shù)拉格朗日函數(shù)導(dǎo)數(shù)為0可以求出w=求和ai?yi?xi,a變小使得w變小,因此間隔2/||w||變大
4正確答案是:D,解析:
EM算法: 只有觀測(cè)序列,無(wú)狀態(tài)序列時(shí)來(lái)學(xué)習(xí)模型參數(shù),即Baum-Welch算法
維特比算法:用動(dòng)態(tài)規(guī)劃解決HMM的預(yù)測(cè)問(wèn)題,不是參數(shù)估計(jì)
前向后向算法:用來(lái)算概率
極大似然估計(jì):即觀測(cè)序列和相應(yīng)的狀態(tài)序列都存在時(shí)的監(jiān)督學(xué)習(xí)算法,用來(lái)估計(jì)參數(shù)
注意的是在給定觀測(cè)序列和對(duì)應(yīng)的狀態(tài)序列估計(jì)模型參數(shù),可以利用極大似然發(fā)估計(jì)。如果給定觀測(cè)序列,沒(méi)有對(duì)應(yīng)的狀態(tài)序列,才用EM,將狀態(tài)序列看不不可測(cè)的隱數(shù)據(jù)。
5 正確答案是:D,解析:
之前的解析有些問(wèn)題,特完善如下。
L1范數(shù)是向量中各個(gè)元素的絕對(duì)值之和,又叫稀疏規(guī)則算子。L1正則化通過(guò)向代價(jià)函數(shù)中添加權(quán)重向量的L1范數(shù)(即正則化項(xiàng)),使得優(yōu)化后的模型中無(wú)用特征對(duì)應(yīng)的權(quán)值變?yōu)?,相當(dāng)于減少了特征維數(shù),實(shí)現(xiàn)了特征的自動(dòng)選擇,所以LR中加入L1范數(shù)可以進(jìn)行特征選擇、解決維度災(zāi)難問(wèn)題、加快計(jì)算速度;
L2范數(shù)是向量中各個(gè)元素平方和的1/2次方。L2正則化通過(guò)向代價(jià)函數(shù)中添加權(quán)重向量的L2范數(shù),使得優(yōu)化后的模型中所有的權(quán)值w盡可能趨于0但不為0,通過(guò)L2范數(shù),可以實(shí)現(xiàn)對(duì)模型空間的限制,從而在一定程度上避免了過(guò)擬合;
過(guò)擬合的時(shí)候,擬合函數(shù)需要顧忌每一個(gè)點(diǎn),最終形成的擬合函數(shù)波動(dòng)很大,在某些小區(qū)間里,函數(shù)值的變化很大,也就是w非常大。所以LR中加入L2范數(shù)可以在一定程度上防止過(guò)擬合;
在LR中同時(shí)加入L1和L2范數(shù)不會(huì)產(chǎn)生結(jié)果更準(zhǔn)確的效果。
6正確答案是:A,解析:
L1正則化偏向于稀疏,它會(huì)自動(dòng)進(jìn)行特征選擇,去掉一些沒(méi)用的特征,也就是將這些特征對(duì)應(yīng)的權(quán)重置為0.
L2主要功能是為了防止過(guò)擬合,當(dāng)要求參數(shù)越小時(shí),說(shuō)明模型越簡(jiǎn)單,而模型越簡(jiǎn)單則,越趨向于平滑,從而防止過(guò)擬合。
L1正則化/Lasso
L1正則化將系數(shù)w的l1范數(shù)作為懲罰項(xiàng)加到損失函數(shù)上,由于正則項(xiàng)非零,這就迫使那些弱的特征所對(duì)應(yīng)的系數(shù)變成0。因此L1正則化往往會(huì)使學(xué)到的模型很稀疏(系數(shù)w經(jīng)常為0),這個(gè)特性使得L1正則化成為一種很好的特征選擇方法。
L2正則化/Ridge regression
L2正則化將系數(shù)向量的L2范數(shù)添加到了損失函數(shù)中。由于L2懲罰項(xiàng)中系數(shù)是二次方的,這使得L2和L1有著諸多差異,最明顯的一點(diǎn)就是,L2正則化會(huì)讓系數(shù)的取值變得平均。
對(duì)于關(guān)聯(lián)特征,這意味著他們能夠獲得更相近的對(duì)應(yīng)系數(shù)。還是以Y=X1+X2為例,假設(shè)X1和X2具有很強(qiáng)的關(guān)聯(lián),如果用L1正則化,不論學(xué)到的模型是Y=X1+X2還是Y=2X1,懲罰都是一樣的,都是2alpha。但是對(duì)于L2來(lái)說(shuō),第一個(gè)模型的懲罰項(xiàng)是2alpha,但第二個(gè)模型的是4*alpha??梢钥闯?,系數(shù)之和為常數(shù)時(shí),各系數(shù)相等時(shí)懲罰是最小的,所以才有了L2會(huì)讓各個(gè)系數(shù)趨于相同的特點(diǎn)。
可以看出,L2正則化對(duì)于特征選擇來(lái)說(shuō)一種穩(wěn)定的模型,不像L1正則化那樣,系數(shù)會(huì)因?yàn)榧?xì)微的數(shù)據(jù)變化而波動(dòng)。所以L2正則化和L1正則化提供的價(jià)值是不同的,L2正則化對(duì)于特征理解來(lái)說(shuō)更加有用:表示能力強(qiáng)的特征對(duì)應(yīng)的系數(shù)是非零。
因此,一句話總結(jié)就是:L1會(huì)趨向于產(chǎn)生少量的特征,而其他的特征都是0,而L2會(huì)選擇更多的特征,這些特征都會(huì)接近于0。Lasso在特征選擇時(shí)候非常有用,而Ridge就只是一種規(guī)則化而已。
7 A
8 正確答案是:D,解析:
之前的解析不夠完善,特完善如下。
隱馬爾科夫模型有三個(gè)基本問(wèn)題:
1概率計(jì)算問(wèn)題:給定模型和觀測(cè)序列,計(jì)算在模型下觀測(cè)序列出現(xiàn)的概率。
2學(xué)習(xí)問(wèn)題:已知觀測(cè)序列,估計(jì)模型中的參數(shù),使得在該模型下觀測(cè)序列概率最大,即用極大似然估計(jì)的方法估計(jì)參數(shù)。
3預(yù)測(cè)問(wèn)題:也稱解碼問(wèn)題,已知模型和觀測(cè)序列,給定觀測(cè)序列,求最可能的對(duì)應(yīng)的狀態(tài)序列。
解決隱馬爾科夫模型三個(gè)基本問(wèn)題的算法:
概率計(jì)算算法:前向算法、后向算法
學(xué)習(xí)算法:Baum-Welch算法
預(yù)測(cè)算法:近似算法、維特比算法
評(píng)估問(wèn)題就是概率計(jì)算問(wèn)題,相應(yīng)的算法是前向算法和后向算法,A正確;解碼問(wèn)題就是預(yù)測(cè)問(wèn)題,相應(yīng)的算法是維特比算法,B正確。學(xué)習(xí)問(wèn)題相應(yīng)的算法是Baum-Welch算法,C正確;前向算法和后向算法對(duì)應(yīng)評(píng)估問(wèn)題,D錯(cuò)誤。
9 正確答案是:D,解析:
一般情況下,越復(fù)雜的系統(tǒng),過(guò)擬合的可能性就越高,一般模型相對(duì)簡(jiǎn)單的話泛化能力會(huì)更好一點(diǎn)。
B.一般認(rèn)為,增加隱層數(shù)可以降低網(wǎng)絡(luò)誤差(也有文獻(xiàn)認(rèn)為不一定能有效降低),提高精度,但也使網(wǎng)絡(luò)復(fù)雜化,從而增加了網(wǎng)絡(luò)的訓(xùn)練時(shí)間和出現(xiàn)“過(guò)擬合”的傾向, svm高斯核函數(shù)比線性核函數(shù)模型更復(fù)雜,容易過(guò)擬合
D.徑向基(RBF)核函數(shù)/高斯核函數(shù)的說(shuō)明,這個(gè)核函數(shù)可以將原始空間映射到無(wú)窮維空間。對(duì)于參數(shù) ,如果選的很大,高次特征上的權(quán)重實(shí)際上衰減得非常快,實(shí)際上(數(shù)值上近似一下)相當(dāng)于一個(gè)低維的子空間;反過(guò)來(lái),如果選得很小,則可以將任意的數(shù)據(jù)映射為線性可分——當(dāng)然,這并不一定是好事,因?yàn)殡S之而來(lái)的可能是非常嚴(yán)重的過(guò)擬合問(wèn)題。不過(guò),總的來(lái)說(shuō),通過(guò)調(diào)整參數(shù) ,高斯核實(shí)際上具有相當(dāng)高的靈活性,也是 使用最廣泛的核函數(shù) 之一。
10 正確答案是:D,您的選擇是:C
解析:
AR模型是一種線性預(yù)測(cè),即已知N個(gè)數(shù)據(jù),可由模型推出第N點(diǎn)前面或后面的數(shù)據(jù)(設(shè)推出P點(diǎn)),所以其本質(zhì)類似于插值。
MA模型(moving average model)滑動(dòng)平均模型,其中使用趨勢(shì)移動(dòng)平均法建立直線趨勢(shì)的預(yù)測(cè)模型。
ARMA模型(auto regressive moving average model)自回歸滑動(dòng)平均模型,模型參量法高分辨率譜分析方法之一。這種方法是研究平穩(wěn)隨機(jī)過(guò)程有理譜的典型方法。它比AR模型法與MA模型法有較精確的譜估計(jì)及較優(yōu)良的譜分辨率性能,但其參數(shù)估算比較繁瑣。
GARCH模型稱為廣義ARCH模型,是ARCH模型的拓展,由Bollerslev(1986)發(fā)展起來(lái)的。它是ARCH模型的推廣。GARCH(p,0)模型,相當(dāng)于ARCH(p)模型。GARCH模型是一個(gè)專門針對(duì)金融數(shù)據(jù)所量體訂做的回歸模型,除去和普通回歸模型相同的之處,GARCH對(duì)誤差的方差進(jìn)行了進(jìn)一步的建模。特別適用于波動(dòng)性的分析和預(yù)測(cè),這樣的分析對(duì)投資者的決策能起到非常重要的指導(dǎo)性作用,其意義很多時(shí)候超過(guò)了對(duì)數(shù)值本身的分析和預(yù)測(cè)。