選自Google Research 機(jī)器之心編譯 參與:李亞洲 最近,谷歌不斷加大開源的力度。前天,谷歌發(fā)布YouTube-8M,這是單個GPU一天就能完成訓(xùn)練的一個最大視頻數(shù)據(jù)集;昨天,谷歌開放了圖像壓縮模型,能高質(zhì)量地將圖像壓縮得更?。唤裉?,谷歌再次發(fā)布大規(guī)模圖像數(shù)據(jù)集 Open Images。 過去幾年機(jī)器學(xué)習(xí)的發(fā)展使得計(jì)算機(jī)視覺有了快速的進(jìn)步,系統(tǒng)能夠自動描述圖片,對共享的圖片創(chuàng)造自然語言回應(yīng)。其中大部分的進(jìn)展都可歸因于 ImageNet 、COCO(監(jiān)督學(xué)習(xí))以及 YFCC100M(無監(jiān)督學(xué)習(xí)數(shù)據(jù)集) 這樣的數(shù)據(jù)集的公開使用。 今天,我們向公眾介紹 Open Image,這是一個包含~900萬張圖像 URL 的數(shù)據(jù)集,里面的圖片通過標(biāo)簽注釋被分為6000多類。我們試圖讓該數(shù)據(jù)集更為實(shí)用:該數(shù)據(jù)集中的標(biāo)簽要比 ImageNet(1000類)包含更真實(shí)生活的實(shí)體存在,它足夠讓我們從頭開始訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。 使用谷歌云視覺 API 這樣的視覺模型自動進(jìn)行圖像層次的注釋已經(jīng)變得很流行。在驗(yàn)證數(shù)據(jù)集上,我們有人類評定等級查證這些自動標(biāo)簽,并移除里面的假正例。平均而言,每個圖像有大約8個標(biāo)簽。如以下示例: 來自 Open Images 數(shù)據(jù)集的帶有注釋的圖片。左圖:Kevin Krejci 的 Ghost Arches;右圖:一些銀器 僅基于 Open Images 注釋,我們已經(jīng)訓(xùn)練出了一個 Inception V3 模型,而且該模型被用于微調(diào)應(yīng)用和其他事件時(shí)表現(xiàn)足夠的好,比如用于 Deep Dream 或藝術(shù)風(fēng)格遷移這樣的需要較好層次結(jié)構(gòu)的過濾器的任務(wù)。我們希望在接下來幾個月能改進(jìn) Open Images 數(shù)據(jù)集中圖像注釋的質(zhì)量,因此能改進(jìn)訓(xùn)練的模型的質(zhì)量。 開源地址:https://github.com/openimages/dataset (原標(biāo)題:業(yè)界 | Google發(fā)布Open Images圖像數(shù)據(jù)集,包含9百萬標(biāo)注圖片) (責(zé)任編輯:王超_NT4133) |
|