小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

吐血整理:43種機(jī)器學(xué)習(xí)開源數(shù)據(jù)集(附地址/調(diào)用方法)

 awoziji 2020-12-20

導(dǎo)讀:學(xué)習(xí)機(jī)器學(xué)習(xí)是一個(gè)不斷探索和實(shí)驗(yàn)的過程,因此,本文將主要介紹常見的開源數(shù)據(jù)集,便于讀者學(xué)習(xí)和實(shí)驗(yàn)各種機(jī)器學(xué)習(xí)算法。


作者:張春強(qiáng) 張和平 唐振 來源:大數(shù)據(jù)DT(ID:hzdashuju)



01 開源數(shù)據(jù)集介紹

在學(xué)習(xí)機(jī)器學(xué)習(xí)算法的過程中,我們經(jīng)常需要數(shù)據(jù)來學(xué)習(xí)和試驗(yàn)算法,但是找到一組適合某種機(jī)器學(xué)習(xí)類型的數(shù)據(jù)卻不那么方便。下文對(duì)常見的開源數(shù)據(jù)集進(jìn)行了匯總。

1. UCI數(shù)據(jù)集

  • 類型:比較全面,各類型數(shù)據(jù)都有涉及
  • 網(wǎng)址:
    http://archive.ics./ml/datasets.php

2. Kaggle競賽數(shù)據(jù)集

  • 類型:比較全面,各類型數(shù)據(jù)都有涉及
  • 網(wǎng)址:https://www./datasets

3. ImageNet

  • 類型:計(jì)算機(jī)視覺數(shù)據(jù)
  • 網(wǎng)址:http:///

4. VisualData

  • 類型:計(jì)算機(jī)視覺數(shù)據(jù)
  • 網(wǎng)址:https://www./

5. MS COCO

  • 類型:計(jì)算機(jī)視覺數(shù)據(jù)
  • 網(wǎng)址:http:///

6. Stanford CoreNLP

  • 類型:情感分析數(shù)據(jù)
  • 網(wǎng)址:
    http://nlp./sentiment/code.html

7. IMDB

  • 類型:情感分析數(shù)據(jù)
  • 網(wǎng)址:
    http://ai./~amaas/data/sentiment/

8. Sentiment140

  • 類型:情感分析數(shù)據(jù)
  • 網(wǎng)址:
    http://help./for-students/

9. HotspotQA

  • 類型:自然語言處理
  • 網(wǎng)址:https://hotpotqa./

10. Enron Email

  • 類型:自然語言處理
  • 網(wǎng)址:https://www.cs./~./enron/

11. Amazon

  • 類型:自然語言處理
  • 網(wǎng)址:
    https://snap./data/web-Amazon.html

12. 百度Apolloscapes

  • 類型:自動(dòng)駕駛
  • 網(wǎng)址:http://to/

13. Berkeley DeepDrive

  • 類型:自動(dòng)駕駛
  • 網(wǎng)址:http://bdd-data./

14. Robotcar

  • 類型:自動(dòng)駕駛
  • 網(wǎng)址:
    http://robotcar-dataset.robots./

15. Data.gov

  • 類型:公共政府?dāng)?shù)據(jù)集
  • 網(wǎng)址:https://www./

16. Food Environment Atlas

  • 類型:公共政府?dāng)?shù)據(jù)集
  • 網(wǎng)址:
    https://catalog./dataset/food-environment-atlas-f4a22

17. Annual Survey of School System Finances

  • 類型:公共政府?dāng)?shù)據(jù)集
  • 網(wǎng)址:
    https://catalog./dataset/annual-survey-of-school-system-finances

18. NCES

  • 類型:公共政府?dāng)?shù)據(jù)集
  • 網(wǎng)址:https://nces./

19. Data USA

  • 類型:公共政府?dāng)?shù)據(jù)集
  • 網(wǎng)址:http:///

20. 中國國家統(tǒng)計(jì)局

  • 類型:公共政府?dāng)?shù)據(jù)集
  • 網(wǎng)址:http://www.stats.gov.cn/

21. Quandl

  • 類型:金融與經(jīng)濟(jì)數(shù)據(jù)集
  • 網(wǎng)址:https://www./

22. WorldBank

  • 類型:金融與經(jīng)濟(jì)數(shù)據(jù)集
  • 網(wǎng)址:https://data./

23. IMF

  • 類型:金融與經(jīng)濟(jì)數(shù)據(jù)集
  • 網(wǎng)址:https://www./en/Data

24. Markets

  • 類型:金融與經(jīng)濟(jì)數(shù)據(jù)集
  • 網(wǎng)址:https://markets./data/

25. Google Trends

  • 類型:金融與經(jīng)濟(jì)數(shù)據(jù)集
  • 網(wǎng)址
    http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

26. US Macro Regional

  • 類型:金融與經(jīng)濟(jì)數(shù)據(jù)集

  • 網(wǎng)址:
    https://www./resources/data/us-macro-regional

27. Google Audioset

  • 類型:語音數(shù)據(jù)集
  • 網(wǎng)址:
    https://research.google.com/audioset/

28. 2000 HUB5 English

  • 類型:語音數(shù)據(jù)集
  • 網(wǎng)址:
    https://catalog.ldc./LDC2002T43

29. LibriSpeech

  • 類型:語音數(shù)據(jù)集
  • 網(wǎng)址:http://www./12/



02 scikit-learn中的數(shù)據(jù)集

scikit-learn是Python中進(jìn)行數(shù)據(jù)挖掘和建模中常用的機(jī)器學(xué)習(xí)工具包。scikit-learn的datasets模塊主要提供了一些導(dǎo)入、在線下載及本地生成數(shù)據(jù)集的方法。模塊的主要函數(shù)如下所示。

  1. sklearn.datasets.load_<name>:自帶數(shù)據(jù)集(數(shù)據(jù)量較?。?/span>
  2. sklearn.datasets.fetch_<name>在線下載的數(shù)據(jù)集
  3. sklearn.datasets.make_<name>生成指定類型的隨機(jī)數(shù)據(jù)集
  4. sklearn.datasets.load_svmlight_filesvmlight/libsvm格式的數(shù)據(jù)集
  5. sklearn.datasets.fetch_mldatamldata.org在線下載數(shù)據(jù)集

自帶數(shù)據(jù)集的datasets模塊里包含自帶數(shù)據(jù)集,使用load_*加載即可,使用示例如下所示。

from sklearn.datasets import load_iris
data = load_iris()
# 查看數(shù)據(jù)描述
print(data.DESCR)
X = data.data
y = data.target

自帶數(shù)據(jù)集的基本信息及序號(hào)30、31、32的自帶數(shù)據(jù)集做簡單的介紹如下。讀者也可以使用data.DESCR,查看其英文描述。

30. 波士頓房價(jià)數(shù)據(jù)集

  • 調(diào)用方法:load_boston
  • 模型類型:回歸
  • 數(shù)據(jù)規(guī)模(樣本*特征):506*13

這個(gè)數(shù)據(jù)集包含了506處波士頓不同地理位置的房產(chǎn)的房價(jià)數(shù)據(jù)(因變量),房屋以及房屋周圍的詳細(xì)信息(自變量),其中包含城鎮(zhèn)犯罪率、一氧化氮濃度、住宅平均房間數(shù)等13個(gè)維度的數(shù)據(jù),波士頓房價(jià)數(shù)據(jù)集能夠應(yīng)用到回歸問題上。波士頓房價(jià)數(shù)據(jù)集與屬性描述如下所示。

  • CRIM:城鎮(zhèn)人均犯罪率。
  • ZN:住宅用地超過25000平方英尺的比例。
  • INDUS:城鎮(zhèn)非零售商用土地的比例。
  • CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)。
  • NOX:一氧化氮濃度。
  • RM住宅平均房間數(shù)。
  • AGE:1940 年之前建成的自用房屋比例。
  • DIS:到波士頓五個(gè)中心區(qū)域的加權(quán)距離。
  • RAD:輻射性公路的接近指數(shù)。
  • TAX:每10000 美元的全值財(cái)產(chǎn)稅率。
  • PTRATIO:城鎮(zhèn)師生比例。
  • MEDV:自住房的平均房價(jià),以千美元計(jì)。

31. 鳶尾花數(shù)據(jù)集

  • 調(diào)用方法:load_iris
  • 模型類型:分類
  • 數(shù)據(jù)規(guī)模(樣本*特征):105*4

鳶尾花數(shù)據(jù)集是一個(gè)非常經(jīng)典的數(shù)據(jù)集,著名的統(tǒng)計(jì)學(xué)家Fisher在研究判別分析問題時(shí)收集了一些關(guān)于鳶尾花的數(shù)據(jù),包含了150個(gè)鳶尾花樣本,對(duì)應(yīng)3種鳶尾花,各50個(gè)樣本,以及它們各自對(duì)應(yīng)的4種關(guān)于外形的數(shù)據(jù)(自變量)。該數(shù)據(jù)集可用于多分類問題,測量數(shù)據(jù)如下所示。

  • sepal length (cm):萼片長度。
  • sepal width (cm):萼片寬度。
  • petal length (cm):花瓣長度。
  • petal width (cm):花瓣寬度。

類別共分為三類:Iris Setosa、Iris Versicolour和Iris Virginica。

32. 手寫數(shù)字?jǐn)?shù)據(jù)集

  • 調(diào)用方法:load_digits
  • 模型類型:分類
  • 數(shù)據(jù)規(guī)模(樣本*特征):1797*64

這個(gè)數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)的經(jīng)典數(shù)據(jù),共有1797個(gè)樣本,每個(gè)樣本有64個(gè)元素,對(duì)應(yīng)一個(gè)8×8像素點(diǎn)組成的矩陣,矩陣中值的范圍是0~16,代表顏色的深度,控制每一個(gè)像素的黑白濃淡,所以每個(gè)樣本還原到矩陣后代表一個(gè)手寫體數(shù)字。

33. 糖尿病數(shù)據(jù)集

  • 調(diào)用方法:load_diabetes
  • 模型類型:回歸
  • 數(shù)據(jù)規(guī)模(樣本*特征):422*10

34. 葡萄酒數(shù)據(jù)集

  • 調(diào)用方法:Load_wine
  • 模型類型:分類
  • 數(shù)據(jù)規(guī)模(樣本*特征):178*13

35. 乳腺癌數(shù)據(jù)集

  • 調(diào)用方法:load_breast_cancer
  • 模型類型:分類
  • 數(shù)據(jù)規(guī)模(樣本*特征):569*30

36. 體能訓(xùn)練數(shù)據(jù)集

  • 調(diào)用方法:load_linnerud
  • 模型類型:多元回歸
  • 數(shù)據(jù)規(guī)模(樣本*特征):20*3

scikit-learn在線下載數(shù)據(jù)集的datasets模塊包含在線下載數(shù)據(jù)集的方法,調(diào)用fetch_*接口從網(wǎng)絡(luò)下載,示例如下所示。

from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')
newsgroups_test = fetch_20newsgroups(subset='test')

注意,fetch_*接口由于需要從國外網(wǎng)址下載數(shù)據(jù),速度可能很慢!

在線下載數(shù)據(jù)集的基本信息如下所示。

37. Olivetti臉部圖像數(shù)據(jù)集

  • 調(diào)用方法:fetch_olivetti_faces
  • 模型類型:降維
  • 數(shù)據(jù)規(guī)模(樣本*特征):400*64*64

38. 20類新聞分類數(shù)據(jù)集(文本)

  • 調(diào)用方法:fetch_20newsgroups
  • 模型類型:分類
  • 數(shù)據(jù)規(guī)模(樣本*特征):18846*1

39. 20類新聞文本數(shù)據(jù)集(特征向量)

  • 調(diào)用方法:fetch_20newsgroups_vectorized
  • 模型類型:分類
  • 數(shù)據(jù)規(guī)模(樣本*特征):18846*130107

40. 帶標(biāo)簽的人臉數(shù)據(jù)集

  • 調(diào)用方法:fetch_lfw_people
  • 模型類型:分類
  • 數(shù)據(jù)規(guī)模(樣本*特征):13233*5828

41. 路透社新聞?wù)Z料數(shù)據(jù)集

  • 調(diào)用方法:fetch_rcv1
  • 模型類型:分類
  • 數(shù)據(jù)規(guī)模(樣本*特征):804414*47236

42. 加州住房數(shù)據(jù)集

  • 調(diào)用方法:fetch_california_housing
  • 模型類型:回歸
  • 數(shù)據(jù)規(guī)模(樣本*特征):20640*8

43. 森林植被

  • 調(diào)用方法:fetch_covtype
  • 模型類型:多分類
  • 數(shù)據(jù)規(guī)模(樣本*特征):581012*54

scikit-learn包括用于以svmlight/libsvm格式加載數(shù)據(jù)集的實(shí)函數(shù)。在這種格式中,每一行都采用表格,此格式特別適用于稀疏數(shù)據(jù)集。在該模塊中,使用SciPy稀疏CSR矩陣,并使用numpy數(shù)組,示例如下。svmlight / libsvm格式的公共數(shù)據(jù)集可以從網(wǎng)上下載。

網(wǎng)址:
https://www.csie./~cjlin/libsvmtools/datasets/

from  sklearn.datasets  import  load_svmlight_file 
X_train , y_train  =  load_svmlight_file ('/ path / to / train_dataset.txt ' )newsgroups_test = fetch_20newsgroups(subset='test')

是機(jī)器學(xué)習(xí)數(shù)據(jù)和實(shí)驗(yàn)的公共存儲(chǔ)庫,允許每個(gè)人上傳開放數(shù)據(jù)集。sklearn.datasets能夠從存儲(chǔ)庫下載數(shù)據(jù)集。示例如下:

from sklearn.datasets import fetch_openml
mice = fetch_openml(name='miceprotein', version=4)
print(mice.DESCR) 
mice.url

更多數(shù)據(jù)集信息描述請(qǐng)查看官網(wǎng):

https://www./search?type=data

關(guān)于作者:張春強(qiáng),是一位具有3年C/C++、7年大數(shù)據(jù)和機(jī)器學(xué)習(xí)經(jīng)驗(yàn)且富有創(chuàng)造力的技術(shù)專家,在技術(shù)一線摸爬滾打近10年,先后就職于大型IT、世界500強(qiáng)企業(yè),目前就職于某大型金融科技集團(tuán),負(fù)責(zé)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)相關(guān)工作的管理和研發(fā)。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多