今天跟大家推薦一個Github項(xiàng)目,來自NAVER Clova AI Research的hwalsuklee同學(xué)匯總了近幾年的基于深度學(xué)習(xí)進(jìn)行文本檢測、識別的論文、代碼、數(shù)據(jù)集、教程資源,非常值得參考。 https://github.com/hwalsuklee/awesome-deep-text-detection-recognition 該項(xiàng)目不是簡單的網(wǎng)址羅列,作者還很用心的將各個算法在公認(rèn)標(biāo)準(zhǔn)測試集上的精度也一并列出,方便一目了然進(jìn)行算法比較。 作者首先統(tǒng)計了深度學(xué)習(xí)OCR方向的文獻(xiàn): 可見這個方向基于深度學(xué)習(xí)的技術(shù)是大勢所趨。 按研究方向,在這些論文中,尤以文本檢測的數(shù)量最多,占比達(dá)48.9%,其次是文本識別21.7%,端到端文本識別占比14.1%。 文本檢測匯總 在下圖表格中,IC3代表該算法在ICDAR2013數(shù)據(jù)集上的精度,IC15代表該算法在ICDAR2015數(shù)據(jù)集上的精度,PRJ代表項(xiàng)目主頁,CAFFE/TF等代表使用深度學(xué)習(xí)框架Caffe/TensorFlow等實(shí)現(xiàn)的代碼。 從中我們可以看出,在ICDAR2013和ICDAR2015數(shù)據(jù)集上均為來自CVPR 2018的論文《FOTS: Fast Oriented Text Spotting with a Unified Network》取得了最高的精度,分別是0.925和0.8984,這是商湯科技的工作,代碼已經(jīng)開源。 下面是作者用論文發(fā)表時間和相應(yīng)精度制作的散點(diǎn)圖,可見該領(lǐng)域算法精度幾乎是以45度角直線上升式發(fā)展。 文本識別匯總 文本識別的精度是在四個數(shù)據(jù)集上比較的,如下圖。 在四個數(shù)據(jù)集上,綜合表現(xiàn)最好的當(dāng)屬《ASTER: An Attentional Scene Text Recognizer with Flexible Rectification》,這篇文章發(fā)表于PAMI2018,來自華中科技大學(xué)白翔老師組,代碼也開源了。 下面是來自兩個數(shù)據(jù)集的散點(diǎn)圖,同樣識別技術(shù)也幾乎以45度角直線式發(fā)展。 端到端文本識別 即包含文本檢測與識別的全流程的算法。 綜合看,來自商湯科技的FOTS和來自華科的Mask TextSpotter都很優(yōu)秀。 值得注意的是Mask TextSpotter算法也已經(jīng)開源了 (https://github.com/lvpengyuan/masktextspotter.caffe2),此處沒有列出。 下圖為端到端文本識別的精度-發(fā)表時間散點(diǎn)圖,相比之下,近兩年的提升并不是很明顯。 文本識別相關(guān)的其他方向 包括數(shù)據(jù)集、文本檢索、字體變換、文檔版面分析等。 作者還列出了該領(lǐng)域其他人做的資源總結(jié)和相關(guān)教程資源。 最后附上來自商湯科技的FOTS算法的Demo視頻,看看它到底多強(qiáng)大。 @我愛計算機(jī)視覺 版權(quán)聲明 |
|