1 新智元編譯 來源:machinelearningmastery.com 作者:Jason Brownlee 新智元啟動新一輪大招聘:COO、執(zhí)行總編、主編、高級編譯、主筆、運(yùn)營總監(jiān)、客戶經(jīng)理、咨詢總監(jiān)、行政助理等 9 大崗位全面開放。 簡歷投遞:jobs@aiera.com.cn HR 微信:13552313024 新智元為COO和執(zhí)行總編提供最高超百萬的年薪激勵(lì);為骨干員工提供最完整的培訓(xùn)體系、高于業(yè)界平均水平的工資和獎(jiǎng)金。 加盟新智元,與人工智能業(yè)界領(lǐng)袖攜手改變世界。 【新智元導(dǎo)讀】學(xué)好機(jī)器學(xué)習(xí)的關(guān)鍵是用許多不同的數(shù)據(jù)集來實(shí)踐。本文介紹了10個(gè)最受歡迎的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)數(shù)據(jù)集和7個(gè)時(shí)間序列數(shù)據(jù)集,既有回歸問題也有分類問題,并提供了各數(shù)據(jù)集輸入輸出的變量名稱和基準(zhǔn)性能,以及下載地址,可以用作練習(xí)的資源。 學(xué)好機(jī)器學(xué)習(xí)的關(guān)鍵是用許多不同的數(shù)據(jù)集來練習(xí)。因?yàn)閷Σ煌膯栴},需要有不同的數(shù)據(jù)準(zhǔn)備和建模方法。本文介紹了10個(gè)最受歡迎的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)數(shù)據(jù)集,可以用作練習(xí)的資源。 每個(gè)數(shù)據(jù)集均按照一定的格式介紹,以使讀者相對容易比較,為他們的特定練習(xí)任務(wù)選擇數(shù)據(jù)集或建模方法。 格式:
標(biāo)準(zhǔn)數(shù)據(jù)集 下面是本文將介紹的 10 個(gè)數(shù)據(jù)集的列表。每個(gè)數(shù)據(jù)集都不大,能夠適應(yīng)內(nèi)存或使用電子表格查看。所有數(shù)據(jù)集都由表格數(shù)據(jù)組成,并且沒有(顯式的)缺失值。
這是一個(gè)回歸問題。它由 63 個(gè)觀察值組成,包括1個(gè)輸入變量和1個(gè)輸出變量。變量名分別是:
預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)約為 72.251 千克朗。 前5行的示例如下: 下面是整個(gè)數(shù)據(jù)集的散點(diǎn)圖: 下載地址:http:///RfHWAbI 葡萄酒質(zhì)量數(shù)據(jù)集(Wine Quality Dataset )涉及根據(jù)每種葡萄酒的化學(xué)度量值來預(yù)測白葡萄酒的質(zhì)量。 它是一個(gè)多類分類問題,但也可以定義為回歸問題。每個(gè)類的觀察值數(shù)量不均等。一共有 4898個(gè)觀察值,11個(gè)輸入變量和一個(gè)輸出變量。變量名如下:
預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)為 0.148 的質(zhì)量分?jǐn)?shù)。 數(shù)據(jù)集前5行的示例如下: 比馬印第安人糖尿病數(shù)據(jù)集(Pima Indians Diabetes Dataset)涉及根據(jù)醫(yī)療記錄預(yù)測比馬印第安人5年內(nèi)糖尿病的發(fā)病情況。 它是一個(gè)二元分類問題。每個(gè)類的觀察值數(shù)量不均等。一共有 768 個(gè)觀察值,8個(gè)輸入變量和1個(gè)輸出變量。缺失值通常用零值編碼。變量名如下:
數(shù)據(jù)集前5行的示例如下: 下載地址:http:///RfaFfq8 聲納數(shù)據(jù)集(Sonar Dataset )涉及預(yù)測根據(jù)給定聲納從不同角度返回的強(qiáng)度預(yù)測目標(biāo)物體是巖石還是礦井。 它是一個(gè)二元分類問題。每個(gè)類的觀察值數(shù)量不均等。一共有208個(gè)觀察值,60個(gè)輸入變量和1個(gè)輸出變量。變量名如下:
該數(shù)據(jù)集前5行的示例如下: 下載地址:http:///Rf8GrP7 鈔票數(shù)據(jù)集(Banknote Dataset)涉及根據(jù)給定鈔票的數(shù)個(gè)度量的照片預(yù)測是真鈔還是假鈔。 它是一個(gè)二元分類問題。每個(gè)類的觀測值數(shù)量不均等。一共有 1372 個(gè)觀察值,4個(gè)輸入變量和1個(gè)輸出變量。變量名如下:
該數(shù)據(jù)集前5行的示例如下: 鳶尾花卉數(shù)據(jù)集(Iris Flowers Dataset )涉及根據(jù)鳶尾花的測量數(shù)據(jù)預(yù)測花卉品種。 它是一個(gè)多類分類問題。每個(gè)類的觀察值數(shù)量是均等的。一共有 150 個(gè)觀察值,4個(gè)輸入變量和1個(gè)輸出變量。變量名如下:
該數(shù)據(jù)集前5行的示例如下: 鮑魚數(shù)據(jù)集(Abalone Dataset)涉及根據(jù)鮑魚個(gè)體的測量數(shù)據(jù)來預(yù)測鮑魚的年齡(環(huán)的數(shù)量)。 它是一個(gè)多類分類(multi-class classification)問題,但也可以作為回歸問題。每個(gè)類的觀察值數(shù)量不均等。該數(shù)據(jù)集有 4177 個(gè)觀察值,8個(gè)輸入變量和1個(gè)輸出變量。 變量名如下:
該數(shù)據(jù)集前5行的示例如下: 它是一個(gè)二元分類問題。每個(gè)類的觀察值數(shù)量不均等,一共有 351 個(gè)觀察值,34 個(gè)輸入變量和1個(gè)輸出變量。變量名如下:
該數(shù)據(jù)集前5行的示例如下: 下載地址:http:///Rf8GFY4 小麥種子數(shù)據(jù)集(Wheat Seeds Dataset)涉及對不同品種的小麥種子進(jìn)行預(yù)測,給定的是種子的計(jì)量數(shù)據(jù)。 它是一個(gè)二元分類問題。每個(gè)類的觀察值是均等的,一共 210 個(gè)觀察值,7個(gè)輸入變量和1個(gè)輸出變量。變量名如下:
數(shù)據(jù)集前5行的示例如下: 下載地址:http:///RfHHbzw 波士頓房價(jià)數(shù)據(jù)集(Boston House Price Dataset)包含對房價(jià)的預(yù)測,以千美元計(jì),給定的條件是房屋及其相鄰房屋的詳細(xì)信息。 該數(shù)據(jù)集是一個(gè)回歸問題。每個(gè)類的觀察值數(shù)量是均等的,共有 506 個(gè)觀察,13 個(gè)輸入變量和1個(gè)輸出變量。變量名如下:
數(shù)據(jù)集前5行的示例如下: 下載地址:http:///RfHTAgY 機(jī)器學(xué)習(xí)可以在時(shí)間序列數(shù)據(jù)集上應(yīng)用。這些屬于需要預(yù)測數(shù)值或分類的問題,但數(shù)據(jù)是按時(shí)間排序的。下面介紹7個(gè)標(biāo)準(zhǔn)時(shí)間序列數(shù)據(jù)集,可用于使用機(jī)器學(xué)習(xí)進(jìn)行時(shí)間序列預(yù)測的實(shí)踐。
以下是4個(gè)單變量時(shí)間序列數(shù)據(jù)集,均可從datamarket上下載。
該數(shù)據(jù)集描述了3年期間的洗發(fā)水月銷售量,單位是銷售量,有36個(gè)觀察值。下面是該數(shù)據(jù)集前5行的示例,包括標(biāo)題行:
該數(shù)據(jù)集描述了澳大利亞墨爾本市10年間(1981-1990)的日最低溫度。單位是攝氏度,有3650個(gè)觀察值,數(shù)據(jù)來源為澳大利亞氣象局。 下面是該數(shù)據(jù)集前5行數(shù)據(jù)的示例:
該數(shù)據(jù)集描述了230年間(1749-1983)觀測到的每月太陽黑子數(shù)量。單位是太陽黑子數(shù)量,有2820個(gè)觀察值。數(shù)據(jù)集的來源為 Andrews&Herzberg(1985)。 下面是前5行數(shù)據(jù)的示例:
該數(shù)據(jù)集描述了1959年加利福尼亞州每日出生的女嬰人數(shù)。單位是人數(shù),有365個(gè)觀察值。數(shù)據(jù)集來源自 Newton(1988)。 下面是前5行的示例: 多變量數(shù)據(jù)集(Multivariate datasets)通常更具挑戰(zhàn)性,多變量時(shí)間序列數(shù)據(jù)的主要來源是 UCI 機(jī)器學(xué)習(xí)庫(http://archive.ics./ml/),下文推薦的3個(gè)數(shù)據(jù)集均可下載。
這是一個(gè)分類預(yù)測模型問題,共有14980個(gè)觀察值和15個(gè)輸入變量。 分類值“1”表示眼睛閉著,“0”表示眼睛睜開著。 數(shù)據(jù)按時(shí)間排序,記錄觀察結(jié)果的時(shí)間是117秒。 下面是數(shù)據(jù)集前5行的示例:
這個(gè)數(shù)據(jù)集描述有關(guān)房間特征的數(shù)據(jù),目的是預(yù)測房間是否在使用中。數(shù)據(jù)集包含幾個(gè)星期期間,共10560個(gè)一分鐘的觀察,屬于分類預(yù)測問題。數(shù)據(jù)集包括7個(gè)特征值,例如房間的光線、氣溫、濕度等。 下面是前5行數(shù)據(jù)的示例,包括標(biāo)題行:
這個(gè)數(shù)據(jù)集描述了6年期間的地面臭氧濃度數(shù)據(jù),目的是預(yù)測是否“臭氧日”。數(shù)據(jù)集包含2,536個(gè)觀察值,73個(gè)特征。 這是分類預(yù)測問題,類別值為“1”表示這天是臭氧日,為“0”表示正常日。 下面是前5行的示例: 本文介紹了 10 個(gè)最受歡迎的標(biāo)準(zhǔn)數(shù)據(jù)集,你可以用它們來進(jìn)行機(jī)器學(xué)習(xí)的應(yīng)用練習(xí)。 可以采取以下步驟:
責(zé)編:XJ |
|