sklearn庫(kù)中自帶的標(biāo)準(zhǔn)數(shù)據(jù)集有:

前面有用到過(guò)的數(shù)據(jù)集說(shuō)明:
(1)波士頓房?jī)r(jià)數(shù)據(jù)集(boston)包含506組數(shù)據(jù),每條數(shù)據(jù)包含房屋以及房屋周?chē)脑敿?xì)信息。其中包含城鎮(zhèn)犯罪率、一氧化氮濃度、住宅平均房間數(shù)、到中心區(qū)域的加權(quán)距離以及自住房平均房?jī)r(jià)等。因此,波士頓房?jī)r(jià)數(shù)據(jù)集能夠應(yīng)用到回歸問(wèn)題上(如CART回歸樹(shù))。
(2)鳶尾花數(shù)據(jù)集(Iris)是數(shù)據(jù)挖掘任務(wù)常用的一個(gè)數(shù)據(jù)集;鳶尾花數(shù)據(jù)集采集的是鳶尾花的測(cè)量數(shù)據(jù)以及其所屬的類(lèi)別。測(cè)量數(shù)據(jù)包括:萼片長(zhǎng)度、萼片寬度、花瓣長(zhǎng)度、花瓣寬度。類(lèi)別共分為三類(lèi):Iris Setosa,Iris Versicolour,Iris Virginica。該數(shù)據(jù)集可用于多分類(lèi)問(wèn)題(如CART分類(lèi)樹(shù))。
(3)手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集(digits)包括:1797個(gè)0-9的手寫(xiě)數(shù)字?jǐn)?shù)據(jù),每個(gè)數(shù)字由8*8大小的矩陣構(gòu)成,矩陣中值的范圍是0-16,代表顏色的深度(如KNN算法識(shí)別手寫(xiě)體數(shù)字)。
(4)20 newsgroups數(shù)據(jù)集(fetch_20newsgroups)包括18846篇新聞文章,共涉及到20種話(huà)題,所以稱(chēng)作20 newsgroups text dataset,分文兩部分:訓(xùn)練集和測(cè)試集,通常用來(lái)做文本分類(lèi)(如多項(xiàng)式樸素貝葉斯算法對(duì)新聞分類(lèi))。
參考博文https://www.cnblogs.com/python-machine/p/6940578.html#autoid-0-0-4