SKLearn數(shù)據(jù)集API(二)

計(jì)算機(jī)生成的數(shù)據(jù)集

用于分類(lèi)任務(wù)和聚類(lèi)任務(wù),這些函數(shù)產(chǎn)生樣本特征向量矩陣以及對(duì)應(yīng)的類(lèi)別標(biāo)簽集合。

數(shù)據(jù)集 簡(jiǎn)介
make_blobs 多類(lèi)單標(biāo)簽數(shù)據(jù)集,為每個(gè)類(lèi)分配一個(gè)或者多個(gè)正態(tài)分布的點(diǎn)集,提供了控制每個(gè)數(shù)據(jù)點(diǎn)的參數(shù):中心點(diǎn)(均值),標(biāo)準(zhǔn)差,常用于聚類(lèi)算法。
make_classification 多類(lèi)單標(biāo)簽數(shù)據(jù)集,為每個(gè)類(lèi)分配了一個(gè)或者多個(gè)正態(tài)分布的點(diǎn)集。提供了為數(shù)據(jù)集添加噪聲的方式,包括維度相性,無(wú)效特征和冗余特征等。
make_gaussian_quantiles 將一個(gè)單高斯分布的點(diǎn)集活粉為兩個(gè)數(shù)量均等的點(diǎn)集,作為兩類(lèi)。
make_hastie_10_2 產(chǎn)生一個(gè)相似的二元分類(lèi)器數(shù)據(jù)集,有10個(gè)維度。
make_circles/make_moons 產(chǎn)生二維分類(lèi)數(shù)據(jù)集來(lái)測(cè)試某些算法(e.g.centroid-based clustering或linear classfication)的性能。可以為數(shù)據(jù)集添加噪聲,可以為二元分類(lèi)器產(chǎn)生一些球形判決表面的數(shù)據(jù)。

用于多標(biāo)簽分類(lèi)任務(wù)

數(shù)據(jù)集 簡(jiǎn)介
make_multilabel_classification 產(chǎn)生多類(lèi)多標(biāo)簽隨機(jī)樣本,這些樣本模擬了從很多話(huà)題的混合分布中抽取的詞袋模型,每個(gè)文檔的話(huà)題數(shù)量符合泊松分布,話(huà)題本身則從一個(gè)固定的隨機(jī)分布中抽取出來(lái),同樣的,單詞數(shù)量也是泊松分布抽取,句子則是從多項(xiàng)式抽取。

用于回歸任務(wù)的

數(shù)據(jù)集 簡(jiǎn)介
make_regression 產(chǎn)生回歸任務(wù)的數(shù)據(jù)集,期望目標(biāo)輸出是隨機(jī)特征的稀疏隨機(jī)線(xiàn)性組合,并且附帶有噪聲,它的有用的特征可能是不相關(guān)的,或者低秩的(引起目標(biāo)值的變動(dòng)的只有少量的集合特征)
make_sparse_uncorrelated 產(chǎn)生四個(gè)特征的線(xiàn)性組合(固定參數(shù))作為期望目標(biāo)輸出
make_friedman1 采用了多項(xiàng)式和正弦變換
make_friedman2 包含了特征的乘積和互換操作
make_friedman3 類(lèi)似于arctan變換

用于流行學(xué)習(xí)的

數(shù)據(jù)集 簡(jiǎn)介
make_s_curve 生成S型曲線(xiàn)數(shù)據(jù)集
make_swiss_roll 生成瑞士卷曲線(xiàn)數(shù)據(jù)集

用于因子分解的

數(shù)據(jù)集 簡(jiǎn)介
make_low_rank_matrix
make_sparse_coded_signal
nake_spd_matrix 產(chǎn)生的是隨機(jī)的堆成的正定矩陣
make_sparse_spd_matrix 產(chǎn)生的是稀疏的堆成正定矩陣

make_blobs()

image

make_classification()

image

make_moons()

image

make_circles()

image

svmlight/libsvm格式的數(shù)據(jù)集

svmlight/libsvm的每一行樣本的存放格式

<label> <feature-id>:<feature-value> <feature-id>:<feature-value>...

使用下面的方式導(dǎo)入該格式的數(shù)據(jù)集

X_train, y_train = sklearn.datasets.load_svmlight_file('train.txt')

還可以使用下面的方式將訓(xùn)練集和測(cè)試集一起導(dǎo)入,可以保證X_train和X_test有同樣數(shù)目的特征

X_train, y_train, X_test, y_test = sklearn.datasets.load_svmlight_file(('train.txt', 'test.txt'))

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容