小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

【資源】17個(gè)最受歡迎的機(jī)器學(xué)習(xí)應(yīng)用標(biāo)準(zhǔn)數(shù)據(jù)集

 NeuAlec 2016-12-29

1 新智元編譯

來源:machinelearningmastery.com

作者:Jason Brownlee

編譯:劉小芹

新智元啟動新一輪大招聘:COO、執(zhí)行總編、主編、高級編譯、主筆、運(yùn)營總監(jiān)、客戶經(jīng)理、咨詢總監(jiān)、行政助理等 9 大崗位全面開放。 

簡歷投遞:jobs@aiera.com.cn

HR 微信:13552313024

新智元為COO和執(zhí)行總編提供最高超百萬的年薪激勵(lì);為骨干員工提供最完整的培訓(xùn)體系、高于業(yè)界平均水平的工資和獎(jiǎng)金。

加盟新智元,與人工智能業(yè)界領(lǐng)袖攜手改變世界。


【新智元導(dǎo)讀】學(xué)好機(jī)器學(xué)習(xí)的關(guān)鍵是用許多不同的數(shù)據(jù)集來實(shí)踐。本文介紹了10個(gè)最受歡迎的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)數(shù)據(jù)集和7個(gè)時(shí)間序列數(shù)據(jù)集,既有回歸問題也有分類問題,并提供了各數(shù)據(jù)集輸入輸出的變量名稱和基準(zhǔn)性能,以及下載地址,可以用作練習(xí)的資源。



學(xué)好機(jī)器學(xué)習(xí)的關(guān)鍵是用許多不同的數(shù)據(jù)集來練習(xí)。因?yàn)閷Σ煌膯栴},需要有不同的數(shù)據(jù)準(zhǔn)備和建模方法。本文介紹了10個(gè)最受歡迎的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)數(shù)據(jù)集,可以用作練習(xí)的資源。


每個(gè)數(shù)據(jù)集均按照一定的格式介紹,以使讀者相對容易比較,為他們的特定練習(xí)任務(wù)選擇數(shù)據(jù)集或建模方法。


格式:


  1. 名稱:如何引用數(shù)據(jù)集

  2. 問題類型:是回歸問題還是分類問題

  3. 輸入和輸出:輸入和輸出特征的數(shù)量和名稱

  4. 性能:使用零規(guī)則算法(Zero Rule Algorithm)的基準(zhǔn)性能比較,以及已知的最佳性能

  5. 示例:原始數(shù)據(jù)前5行的快照

  6. 鏈接:下載數(shù)據(jù)集及了解更多的鏈接


標(biāo)準(zhǔn)數(shù)據(jù)集


下面是本文將介紹的 10 個(gè)數(shù)據(jù)集的列表。每個(gè)數(shù)據(jù)集都不大,能夠適應(yīng)內(nèi)存或使用電子表格查看。所有數(shù)據(jù)集都由表格數(shù)據(jù)組成,并且沒有(顯式的)缺失值。


  1. 瑞典汽車保險(xiǎn)數(shù)據(jù)集

  2. 葡萄酒質(zhì)量數(shù)據(jù)集

  3. 比馬印第安人糖尿病數(shù)據(jù)集

  4. 聲納數(shù)據(jù)集

  5. 鈔票數(shù)據(jù)集

  6. 鳶尾花卉數(shù)據(jù)集

  7. 鮑魚數(shù)據(jù)集

  8. 電離層數(shù)據(jù)集

  9. 小麥種子數(shù)據(jù)集

  10. 波士頓房價(jià)數(shù)據(jù)集


瑞典汽車保險(xiǎn)數(shù)據(jù)集


瑞典汽車保險(xiǎn)數(shù)據(jù)集( Swedish Auto Insurance Dataset)包含了對所有索賠要求的總賠付預(yù)測,以千瑞典克朗計(jì),給定的條件是索賠要求總數(shù)。


這是一個(gè)回歸問題。它由 63 個(gè)觀察值組成,包括1個(gè)輸入變量和1個(gè)輸出變量。變量名分別是:


  1. 索賠要求數(shù)量

  2. 對所有索賠的總賠付,以千瑞典克朗計(jì)


預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)約為 72.251 千克朗。


前5行的示例如下:




下面是整個(gè)數(shù)據(jù)集的散點(diǎn)圖:




下載地址:http:///RfHWAbI


葡萄酒質(zhì)量數(shù)據(jù)集


葡萄酒質(zhì)量數(shù)據(jù)集(Wine Quality Dataset )涉及根據(jù)每種葡萄酒的化學(xué)度量值來預(yù)測白葡萄酒的質(zhì)量。


它是一個(gè)多類分類問題,但也可以定義為回歸問題。每個(gè)類的觀察值數(shù)量不均等。一共有 4898個(gè)觀察值,11個(gè)輸入變量和一個(gè)輸出變量。變量名如下:


  1. 非揮發(fā)性酸度

  2. 揮發(fā)性酸度

  3. 檸檬酸

  4. 殘留糖

  5. 氯化物

  6. 游離二氧化硫

  7. 總二氧化硫

  8. 濃度

  9. pH值

  10. 硫酸鹽

  11. 酒精度

  12. 質(zhì)量(得分在 0 和 10 之間)


預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)為 0.148 的質(zhì)量分?jǐn)?shù)。


數(shù)據(jù)集前5行的示例如下:




比馬印第安人糖尿病數(shù)據(jù)集


比馬印第安人糖尿病數(shù)據(jù)集(Pima Indians Diabetes Dataset)涉及根據(jù)醫(yī)療記錄預(yù)測比馬印第安人5年內(nèi)糖尿病的發(fā)病情況。


它是一個(gè)二元分類問題。每個(gè)類的觀察值數(shù)量不均等。一共有 768 個(gè)觀察值,8個(gè)輸入變量和1個(gè)輸出變量。缺失值通常用零值編碼。變量名如下:


  1. 懷孕次數(shù)

  2. 口服葡萄糖耐受試驗(yàn)中,2小時(shí)的血漿葡萄糖濃度。

  3. 舒張壓(mm Hg)

  4. 三頭肌皮膚褶層厚度(mm)

  5. 2小時(shí)血清胰島素含量(μU/ ml)

  6. 體重指數(shù)(體重,kg /(身高,m)^ 2)

  7. 糖尿病家族史

  8. 年齡(歲)

  9. 類變量(0 或 1)


預(yù)測最普遍類的基準(zhǔn)性能是約 65% 的分類準(zhǔn)確率,最佳結(jié)果達(dá)到約 77% 的分類準(zhǔn)確率。

數(shù)據(jù)集前5行的示例如下:




下載地址:http:///RfaFfq8


聲納數(shù)據(jù)集


聲納數(shù)據(jù)集(Sonar Dataset )涉及預(yù)測根據(jù)給定聲納從不同角度返回的強(qiáng)度預(yù)測目標(biāo)物體是巖石還是礦井。


它是一個(gè)二元分類問題。每個(gè)類的觀察值數(shù)量不均等。一共有208個(gè)觀察值,60個(gè)輸入變量和1個(gè)輸出變量。變量名如下:


  1. 從不同角度返回的聲納

  2. ... ...

  3. 類(M為礦井,R為巖石)


預(yù)測最普遍類的基準(zhǔn)性能是約 53% 的分類準(zhǔn)確率,最佳結(jié)果達(dá)到約 88% 的分類準(zhǔn)確率。


該數(shù)據(jù)集前5行的示例如下:




下載地址:http:///Rf8GrP7


鈔票數(shù)據(jù)集


鈔票數(shù)據(jù)集(Banknote Dataset)涉及根據(jù)給定鈔票的數(shù)個(gè)度量的照片預(yù)測是真鈔還是假鈔。


它是一個(gè)二元分類問題。每個(gè)類的觀測值數(shù)量不均等。一共有 1372 個(gè)觀察值,4個(gè)輸入變量和1個(gè)輸出變量。變量名如下:


  1. 小波變換圖像(連續(xù))

  2. 小波偏斜變換圖像(連續(xù))

  3. 小波峰度變換圖像(連續(xù))

  4. 圖像熵(連續(xù))。

  5. 類(0 為真鈔,1 為假鈔)


預(yù)測最普遍類的基準(zhǔn)性能是約 50% 的分類準(zhǔn)確率。


該數(shù)據(jù)集前5行的示例如下:




下載地址:http:///Rf8GdQo


鳶尾花卉數(shù)據(jù)集


鳶尾花卉數(shù)據(jù)集(Iris Flowers Dataset )涉及根據(jù)鳶尾花的測量數(shù)據(jù)預(yù)測花卉品種。


它是一個(gè)多類分類問題。每個(gè)類的觀察值數(shù)量是均等的。一共有 150 個(gè)觀察值,4個(gè)輸入變量和1個(gè)輸出變量。變量名如下:


  1. 萼片長度(cm)

  2. 萼片寬度(cm)

  3. 花瓣長度(cm)

  4. 花瓣寬度(cm)

  5. 類(Iris Setosa,Iris Versicolour,Iris Virginica)


預(yù)測最普遍類的基準(zhǔn)性能是約 26% 的分類準(zhǔn)確率。


該數(shù)據(jù)集前5行的示例如下:




下載地址:http:///Rf8GeUq


鮑魚數(shù)據(jù)集


鮑魚數(shù)據(jù)集(Abalone Dataset)涉及根據(jù)鮑魚個(gè)體的測量數(shù)據(jù)來預(yù)測鮑魚的年齡(環(huán)的數(shù)量)。


它是一個(gè)多類分類(multi-class classification)問題,但也可以作為回歸問題。每個(gè)類的觀察值數(shù)量不均等。該數(shù)據(jù)集有 4177 個(gè)觀察值,8個(gè)輸入變量和1個(gè)輸出變量。 變量名如下:


  1. 性別(M,F(xiàn),I)

  2. 長度

  3. 直徑

  4. 高度

  5. 總重量

  6. 剝殼重量

  7. 內(nèi)臟重量

  8. 殼重

  9. 環(huán)的數(shù)量


預(yù)測最普遍類的基準(zhǔn)性能是約 16% 的分類準(zhǔn)確率,預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)是約 3.2 個(gè)環(huán)。


該數(shù)據(jù)集前5行的示例如下:




下載地址:http:///Rf8GDdu


電離層數(shù)據(jù)集


電離層數(shù)據(jù)集(Ionosphere Dataset)需要根據(jù)給定的電離層中的自由電子的雷達(dá)回波預(yù)測大氣結(jié)構(gòu)。


它是一個(gè)二元分類問題。每個(gè)類的觀察值數(shù)量不均等,一共有 351 個(gè)觀察值,34 個(gè)輸入變量和1個(gè)輸出變量。變量名如下:


  1. 1 17對雷達(dá)回波數(shù)據(jù)。

  2. 2 ... ...

  3. 3 類(g 表示好,b 表示壞)。


預(yù)測最普遍類的基準(zhǔn)性能是約 64% 的分類準(zhǔn)確率,最佳結(jié)果達(dá)到約 94% 的分類準(zhǔn)確率。


該數(shù)據(jù)集前5行的示例如下:




下載地址:http:///Rf8GFY4


小麥種子數(shù)據(jù)集


小麥種子數(shù)據(jù)集(Wheat Seeds Dataset)涉及對不同品種的小麥種子進(jìn)行預(yù)測,給定的是種子的計(jì)量數(shù)據(jù)。


它是一個(gè)二元分類問題。每個(gè)類的觀察值是均等的,一共 210 個(gè)觀察值,7個(gè)輸入變量和1個(gè)輸出變量。變量名如下:


  1. 區(qū)域

  2. 周長

  3. 壓實(shí)度

  4. 籽粒長度

  5. 籽粒寬度

  6. 不對稱系數(shù)

  7. 籽粒腹溝長度

  8. 類(1,2,3)


預(yù)測最普遍類的基準(zhǔn)性能是約 28% 的分類準(zhǔn)確率。


數(shù)據(jù)集前5行的示例如下:




下載地址:http:///RfHHbzw


波士頓房價(jià)數(shù)據(jù)集


波士頓房價(jià)數(shù)據(jù)集(Boston House Price Dataset)包含對房價(jià)的預(yù)測,以千美元計(jì),給定的條件是房屋及其相鄰房屋的詳細(xì)信息。


該數(shù)據(jù)集是一個(gè)回歸問題。每個(gè)類的觀察值數(shù)量是均等的,共有 506 個(gè)觀察,13 個(gè)輸入變量和1個(gè)輸出變量。變量名如下:


  1. CRIM:城鎮(zhèn)人均犯罪率。

  2. ZN:住宅用地超過 25000 sq.ft. 的比例。

  3. INDUS:城鎮(zhèn)非零售商用土地的比例。

  4. CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)。

  5. NOX:一氧化氮濃度。

  6. RM:住宅平均房間數(shù)。

  7. AGE:1940 年之前建成的自用房屋比例。

  8. DIS:到波士頓五個(gè)中心區(qū)域的加權(quán)距離。

  9. RAD:輻射性公路的接近指數(shù)。

  10. TAX:每 10000 美元的全值財(cái)產(chǎn)稅率。

  11. PTRATIO:城鎮(zhèn)師生比例。

  12. B:1000(Bk-0.63)^ 2,其中 Bk 指代城鎮(zhèn)中黑人的比例。

  13. LSTAT:人口中地位低下者的比例。

  14. MEDV:自住房的平均房價(jià),以千美元計(jì)。


預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)是約 9.21 千美元。


數(shù)據(jù)集前5行的示例如下:




下載地址:http:///RfHTAgY


時(shí)間序列數(shù)據(jù)集


機(jī)器學(xué)習(xí)可以在時(shí)間序列數(shù)據(jù)集上應(yīng)用。這些屬于需要預(yù)測數(shù)值或分類的問題,但數(shù)據(jù)是按時(shí)間排序的。下面介紹7個(gè)標(biāo)準(zhǔn)時(shí)間序列數(shù)據(jù)集,可用于使用機(jī)器學(xué)習(xí)進(jìn)行時(shí)間序列預(yù)測的實(shí)踐。


單變量時(shí)間序列數(shù)據(jù)集


只有一個(gè)變量的時(shí)間序列數(shù)據(jù)集稱為單變量數(shù)據(jù)集(univariate datasets),其優(yōu)點(diǎn)是:


  • 簡單且容易理解;

  • 支持excel或其他繪圖工具;

  • 易于預(yù)測結(jié)果和期望結(jié)果的比較;

  • 易于嘗試你并評估新的方法。


以下是4個(gè)單變量時(shí)間序列數(shù)據(jù)集,均可從datamarket上下載。


  • 洗發(fā)水銷售數(shù)據(jù)集(Shampoo Sales Dataset)




該數(shù)據(jù)集描述了3年期間的洗發(fā)水月銷售量,單位是銷售量,有36個(gè)觀察值。下面是該數(shù)據(jù)集前5行的示例,包括標(biāo)題行:




  • 日最低溫度數(shù)據(jù)集(Minimum Daily Temperatures Dataset)




該數(shù)據(jù)集描述了澳大利亞墨爾本市10年間(1981-1990)的日最低溫度。單位是攝氏度,有3650個(gè)觀察值,數(shù)據(jù)來源為澳大利亞氣象局。


下面是該數(shù)據(jù)集前5行數(shù)據(jù)的示例:




  • 每月太陽黑子數(shù)數(shù)據(jù)集(Monthly Sunspot Dataset)



該數(shù)據(jù)集描述了230年間(1749-1983)觀測到的每月太陽黑子數(shù)量。單位是太陽黑子數(shù)量,有2820個(gè)觀察值。數(shù)據(jù)集的來源為 Andrews&Herzberg(1985)。


下面是前5行數(shù)據(jù)的示例:




  • 每日女嬰出生人數(shù)數(shù)據(jù)集




該數(shù)據(jù)集描述了1959年加利福尼亞州每日出生的女嬰人數(shù)。單位是人數(shù),有365個(gè)觀察值。數(shù)據(jù)集來源自 Newton(1988)。


下面是前5行的示例:




多變量時(shí)間序列數(shù)據(jù)集


多變量數(shù)據(jù)集(Multivariate datasets)通常更具挑戰(zhàn)性,多變量時(shí)間序列數(shù)據(jù)的主要來源是 UCI 機(jī)器學(xué)習(xí)庫(http://archive.ics./ml/),下文推薦的3個(gè)數(shù)據(jù)集均可下載。


  • EEG 人眼狀態(tài)數(shù)據(jù)集


該數(shù)據(jù)集描述個(gè)體的 EEG 數(shù)據(jù),以及他們的眼睛是睜著還是閉著。這個(gè)問題是為了根據(jù)跟定的 EEG 數(shù)據(jù)預(yù)測眼睛的狀態(tài)。


這是一個(gè)分類預(yù)測模型問題,共有14980個(gè)觀察值和15個(gè)輸入變量。 分類值“1”表示眼睛閉著,“0”表示眼睛睜開著。 數(shù)據(jù)按時(shí)間排序,記錄觀察結(jié)果的時(shí)間是117秒。


下面是數(shù)據(jù)集前5行的示例:




  • 使用檢測數(shù)據(jù)集(Occupancy Detection Dataset)


這個(gè)數(shù)據(jù)集描述有關(guān)房間特征的數(shù)據(jù),目的是預(yù)測房間是否在使用中。數(shù)據(jù)集包含幾個(gè)星期期間,共10560個(gè)一分鐘的觀察,屬于分類預(yù)測問題。數(shù)據(jù)集包括7個(gè)特征值,例如房間的光線、氣溫、濕度等。


下面是前5行數(shù)據(jù)的示例,包括標(biāo)題行:




  • 臭氧水平檢測數(shù)據(jù)集


這個(gè)數(shù)據(jù)集描述了6年期間的地面臭氧濃度數(shù)據(jù),目的是預(yù)測是否“臭氧日”。數(shù)據(jù)集包含2,536個(gè)觀察值,73個(gè)特征。 這是分類預(yù)測問題,類別值為“1”表示這天是臭氧日,為“0”表示正常日。


下面是前5行的示例:



總結(jié)


本文介紹了 10 個(gè)最受歡迎的標(biāo)準(zhǔn)數(shù)據(jù)集,你可以用它們來進(jìn)行機(jī)器學(xué)習(xí)的應(yīng)用練習(xí)。

可以采取以下步驟:


  1. 選擇一個(gè)數(shù)據(jù)集。

  2. 選擇你最喜歡的工具(例如 Weka,scikit-learn 或 R)

  3. 看看你的結(jié)果比基準(zhǔn)分?jǐn)?shù)高多少。


責(zé)編:XJ




    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多