人工智能項(xiàng)目開發(fā)實(shí)戰(zhàn)(上)

人工智能項(xiàng)目開發(fā)和云平臺(tái)服務(wù)之間的關(guān)系。

一、人工智能項(xiàng)目開發(fā)規(guī)劃與準(zhǔn)備

序號(hào)為4的數(shù)據(jù)信息有著明顯的不一致性問題

對(duì)數(shù)據(jù)資源的管理。針對(duì)企業(yè)數(shù)據(jù)全生命周期所涉及應(yīng)用數(shù)據(jù)的管理,對(duì)數(shù)據(jù)變化的管理,或者說是針對(duì)描述數(shù)據(jù)的數(shù)據(jù)的管理(即元數(shù)據(jù))。把整個(gè)關(guān)于數(shù)據(jù)管理的定義稱之為面向應(yīng)用的數(shù)據(jù)管理。

數(shù)據(jù)管理包含數(shù)據(jù)治理。在數(shù)據(jù)管理的過程當(dāng)中,要保證一個(gè)組織能夠?qū)?shù)據(jù)轉(zhuǎn)換成有用的信息,這項(xiàng)工作所需要的流程和工具,那就是數(shù)據(jù)治理的工作。

數(shù)據(jù)不足——解決方案:a. 收集更多的數(shù)據(jù),可以嘗試找到更多相同源的數(shù)據(jù)源作為原始數(shù)據(jù),或者從另一個(gè)相似度比較高的源來收集更多的數(shù)據(jù);b. 創(chuàng)建具有輕微變化的同一數(shù)據(jù)的多個(gè)副本來增強(qiáng)數(shù)據(jù),可以以非常低的成本來產(chǎn)生大量的額外的圖像,eg. 裁剪、旋轉(zhuǎn)、平移、縮放圖像,添加一些噪點(diǎn)、模糊、改變顏色、阻擋部分噪音來實(shí)現(xiàn)。在所有的情況下,需要確保數(shù)據(jù)仍然代表的同一個(gè)類。術(shù)語(yǔ)上可以管這個(gè)過程叫做“數(shù)據(jù)擴(kuò)充”。

特征提取強(qiáng)調(diào)的是特征轉(zhuǎn)換的方式來得到一組具有明顯物理和統(tǒng)計(jì)意義的特征。而特征選擇是從特征的集合當(dāng)中挑選一組具有明顯物理和統(tǒng)計(jì)意義的特征子集。

二者都可以很好地減少特征的維度和數(shù)據(jù)的冗余。特征提取有時(shí)能發(fā)現(xiàn)更有意義的特征屬性。特征選擇過程經(jīng)常表現(xiàn)出哪個(gè)特征的重要性與模型構(gòu)建的重要性。特征是可以多維度角度進(jìn)行提取的。

四、人工智能項(xiàng)目開發(fā)驗(yàn)收與維護(hù)

在實(shí)際情況中,通常會(huì)通過“測(cè)試誤差”來評(píng)價(jià)學(xué)習(xí)方法的泛化能力。討論機(jī)器學(xué)習(xí)模型的學(xué)習(xí)和泛化的好壞的時(shí)候,通常的術(shù)語(yǔ)是“過擬合”和“欠擬合”。

過擬合(Overfitting)指的是模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)得過于優(yōu)秀,但在未見數(shù)據(jù)上表現(xiàn)較差。過擬合可以比喻為一個(gè)學(xué)生死記硬背了一本題庫(kù)的所有答案,但當(dāng)遇到新的題目時(shí)無法正確回答。這種情況下,模型對(duì)于訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)過于敏感,導(dǎo)致了過度擬合的現(xiàn)象。

欠擬合(Underfitting)指的是模型無法很好地?cái)M合訓(xùn)練數(shù)據(jù),無法捕捉到數(shù)據(jù)中的真實(shí)模式和關(guān)系。欠擬合可以比喻為一個(gè)學(xué)生連基本的知識(shí)都沒有掌握好,無論是老題還是新題都無法解答。這種情況下,模型過于簡(jiǎn)單或者復(fù)雜度不足,無法充分學(xué)習(xí)數(shù)據(jù)中的特征和模式。

圖中最右列錯(cuò)了,自上而下應(yīng)該是假反例和真反例

混淆矩陣(Confusion Matrix)是在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中常用的一個(gè)概念,用于評(píng)估分類模型的性能。它是一個(gè)矩陣,用于展示分類模型預(yù)測(cè)結(jié)果和實(shí)際標(biāo)簽之間的對(duì)應(yīng)關(guān)系。

混淆矩陣通常是一個(gè)2×2的矩陣,其中行表示實(shí)際標(biāo)簽的類別,列表示模型預(yù)測(cè)的類別?;煜仃囍械乃膫€(gè)元素分別表示:真正例(True Positive,TP)、假正例(False Positive,F(xiàn)P)、真反例(True Negative,TN)、假反例(False Negative,F(xiàn)N)。如下圖所示。

假正例(False Positive,F(xiàn)P)、假反例(False Negative,F(xiàn)N);真正例(True Positive,TP)、真反例(True Negative,TN)

真正例(矩陣左上角);真反例(矩陣右下角)。

假反例:模型預(yù)測(cè)為反,但實(shí)際上樣本的標(biāo)簽為正。(位于混淆矩陣的右上角)

假正例:模型預(yù)測(cè)為正,但實(shí)際上樣本的標(biāo)簽為反。(位于混淆矩陣的左下角)

“真”、“假”代表預(yù)測(cè)與真實(shí)之間的對(duì)應(yīng)關(guān)系,判決正確的話,就是“真”。混淆矩陣的左對(duì)角線上是判決正確的樣本數(shù)目。

“正”、“反”表示的是模型預(yù)測(cè)數(shù)據(jù)的標(biāo)簽類別。

混淆矩陣可以幫助我們計(jì)算出各種評(píng)估指標(biāo),如準(zhǔn)確率、召回率、精確率、F1值等。同時(shí),通過觀察混淆矩陣,我們還可以了解分類模型在各種情況下的分類表現(xiàn)。

“準(zhǔn)確率”表示的就是對(duì)角線上判斷正確的數(shù)據(jù)的個(gè)數(shù),左對(duì)角線上的這2個(gè)數(shù)值加起來除以所有的樣本的數(shù)目,就是準(zhǔn)確率的定義,它并不區(qū)分模型判斷正確的類別究竟是什么。

準(zhǔn)確率(Accuracy):指分類模型正確預(yù)測(cè)的樣本數(shù)占總樣本數(shù)的比例,即(TP+TN)/(TP+TN+FP+FN)。

在所有預(yù)測(cè)為“正”的樣本當(dāng)中,模型預(yù)測(cè)為“正”,預(yù)測(cè)正確的樣本所占有的比例就是精確率。

精確率(Precision):指分類模型正確預(yù)測(cè)為正例的樣本數(shù)占預(yù)測(cè)為正例的樣本數(shù)的比例,即TP/(TP+FP)。

在所有真正標(biāo)簽為“正”的樣本當(dāng)中,被模型能夠預(yù)測(cè)為“正”的樣本所占的比例就是召回率。

召回率(Recall):指分類模型正確預(yù)測(cè)為正例的樣本數(shù)占實(shí)際正例樣本數(shù)的比例,即TP/(TP+FN)。

總結(jié)一下:精確率也叫做查準(zhǔn)率,考察的就是我們的機(jī)器學(xué)習(xí)模型到底準(zhǔn)不準(zhǔn)的問題。召回率有時(shí)也叫查全率,考察的就是機(jī)器學(xué)習(xí)模型到底找的全不全的問題。

模型的泛化性能以及相關(guān)的性能調(diào)優(yōu)問題

偏差與泛化之差就是模型預(yù)測(cè)的方差。

模型驗(yàn)證階段的目標(biāo)是多方面的。

模型集成步驟包括2個(gè)主要的活動(dòng):1)構(gòu)建運(yùn)行模型的基礎(chǔ)架構(gòu)(系統(tǒng)工程),2)可以使用和支持的形式來實(shí)現(xiàn)模型(機(jī)器學(xué)習(xí)的領(lǐng)域)。

- TBC -

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容