一、前言最近有幸參加了由中國(guó)圖象圖形學(xué)學(xué)會(huì)(CSIG)主辦,合合信息、CSIG文檔圖像分析與識(shí)別專業(yè)委員會(huì)聯(lián)合承辦的“CSIG企業(yè)行——走進(jìn)合合信息”的分享會(huì),這次活動(dòng)以“圖文智能處理與多場(chǎng)景應(yīng)用技術(shù)展望”為主題,聚焦圖像文檔處理中的結(jié)構(gòu)建模、底層視覺(jué)技術(shù)、跨媒體數(shù)據(jù)協(xié)同應(yīng)用、生成式人工智能及對(duì)話式大型語(yǔ)言模型等熱門(mén)話題,特邀來(lái)自上海交大、復(fù)旦、廈門(mén)大學(xué)、中科大的知名高校的學(xué)者與合合信息技術(shù)團(tuán)隊(duì)一道,以直播的形式分享文檔處理實(shí)踐經(jīng)驗(yàn)及NLP發(fā)展趨勢(shì),探討ChatGPT與文檔處理未來(lái)。經(jīng)過(guò)此次會(huì)議,讓我對(duì)AI圖像、文檔處理方面有了更深刻的理解,下面聊聊我的一些感悟和想法。 二、感悟分享1)生成式人工智能將在未來(lái)成為主流會(huì)議開(kāi)始,來(lái)自上海交大的楊小康教授帶來(lái)了他的報(bào)告《生成式人工智能與元宇宙》 生成式人工智能這個(gè)詞對(duì)于非AI領(lǐng)域的同學(xué)一定很陌生,但它就在我們身邊,這里給大家簡(jiǎn)單說(shuō)明一下: 我們熟知的通過(guò)AI進(jìn)行圖像識(shí)別、垃圾郵件檢測(cè)、數(shù)據(jù)預(yù)測(cè)、自動(dòng)駕駛等這些都屬于分析或決策式的人工智能,我們給機(jī)器大量的數(shù)據(jù),建立學(xué)習(xí)模型,讓它們能夠比人類(lèi)更高效精準(zhǔn)的完成一些任務(wù)。而生成式人工智則是進(jìn)行“創(chuàng)造”,通過(guò)從數(shù)據(jù)中學(xué)習(xí)要素,進(jìn)而生成全新的、原創(chuàng)的內(nèi)容或產(chǎn)品,它不僅能夠?qū)崿F(xiàn)傳統(tǒng)AI的分析、判斷、決策功能,還能夠?qū)崿F(xiàn)傳統(tǒng)AI力所不及的創(chuàng)造性功能,如今大火的ChatGPT、AIGC都屬于生成式人工智能,2021年4月,英偉達(dá)公司創(chuàng)始人兼首席執(zhí)行官黃仁勛的演講會(huì)就有15秒的視頻通過(guò)生成式人工智能合成的: 楊小康教授在會(huì)議中首先分享了他們對(duì)元宇宙和生成式人工智能發(fā)展趨勢(shì)和價(jià)值: 然后介紹他們?cè)诹黧w現(xiàn)象模擬推理、物理環(huán)境持續(xù)預(yù)測(cè)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)中世界模型表征解耦、虛擬數(shù)字人重建與驅(qū)動(dòng)等方面的生成式人工智能取得成果: 并表示,目前的生成式人工智能還存在解空間巨大、宏觀一致性差、微觀清晰度受限等問(wèn)題,需要通過(guò)數(shù)學(xué)、物理、信息論、腦認(rèn)知、計(jì)算機(jī)等學(xué)科交叉研究,進(jìn)一步夯實(shí)生成式人工智能的基礎(chǔ)理論,通過(guò)“物理+數(shù)據(jù)”聯(lián)合驅(qū)動(dòng), “虛擬+現(xiàn)實(shí)”深度融合,助力科學(xué)發(fā)現(xiàn)的加速。 隨著人工智能技術(shù)的飛速發(fā)展,生成式AI仿佛一股清流般涌入了人類(lèi)的日常生活,充滿創(chuàng)造力的新世界就此呈現(xiàn)在我們的眼前。 據(jù)國(guó)際IT研究機(jī)構(gòu)Gartner預(yù)測(cè),到2025年,生成式人工智能產(chǎn)生的數(shù)據(jù)將占據(jù)人類(lèi)全部數(shù)據(jù)的10%??梢悦黠@的看到,生成式人工智能技術(shù)正加速數(shù)字經(jīng)濟(jì)的發(fā)展,生成型人工智能已經(jīng)成為一個(gè)重要的研究領(lǐng)域,因?yàn)樗軌驈浐衔锢硎澜绾蛿?shù)字領(lǐng)域之間的差距。它的重要性在于它能夠?qū)F(xiàn)實(shí)世界中的結(jié)構(gòu)、操作和規(guī)則映射到計(jì)算機(jī)模型中,從而使計(jì)算機(jī)能夠模仿人類(lèi)的行為。此外,它在各個(gè)行業(yè)的應(yīng)用表明了它改變我們生活的潛力。展望未來(lái),這一領(lǐng)域的研究可能會(huì)集中于“新智能”模型,如轉(zhuǎn)移學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)和貝葉斯優(yōu)化,以及基于大數(shù)據(jù)和無(wú)監(jiān)督學(xué)習(xí)技術(shù)的應(yīng)用。 我很贊成楊小康教授的一個(gè)觀點(diǎn)就是:生成式人工智能是構(gòu)建元宇宙的一個(gè)可行的途徑。而且在不久的將來(lái),以“識(shí)別——分析”為代表的判別式人工智能將被“合成——重建”為代表的生成式人工智代替而成為主流。 另外,復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授邱錫鵬也對(duì)ChapGPT大語(yǔ)言模型的關(guān)鍵技術(shù)進(jìn)行了深度剖析,他從大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型帶來(lái)的變化、ChatGPT 的關(guān)鍵技術(shù)及其局限性等角度深入地介紹了大規(guī)模語(yǔ)言模型的相關(guān)知識(shí): 也指出了ChatGPT目前最大的問(wèn)題之一:作為大型語(yǔ)言模型,它無(wú)法實(shí)時(shí)與外部世界互動(dòng),也無(wú)法利用如計(jì)算器,數(shù)據(jù)庫(kù),搜索引擎等外部工具,導(dǎo)致它的知識(shí)也相對(duì)落后,而未來(lái)它更應(yīng)該做到提高適時(shí)性、即時(shí)性、無(wú)害等等。總的來(lái)說(shuō),如果將 LLM 作為智能體本身,能夠與外部交互之后,這些模型的能力一定會(huì)有更大的提升! 隨著 ChatGPT的大火,很多公司和組織都跟風(fēng),推出類(lèi)似的聊天機(jī)器人產(chǎn)品。這也證明了大家認(rèn)可聊天機(jī)器人技術(shù)的可行性和潛力,也讓人們看到了聊天機(jī)器人在未來(lái)的巨大市場(chǎng)和應(yīng)用前景。 2)文檔圖像處理方向的AI應(yīng)用還存在巨大的挑戰(zhàn),但也有巨大的行業(yè)前景和價(jià)值我們經(jīng)常提到的圖像超分辨率、去模糊、去噪、破損圖像恢復(fù)等都屬于底層視覺(jué)應(yīng)用的范疇,底層視覺(jué)的特征非常明顯:輸入是圖像,輸出也是圖像。比如:圖像預(yù)處理、濾波、恢復(fù)和增強(qiáng)等: 近年來(lái),隨著人工智能、深度學(xué)習(xí)技術(shù)的快速發(fā)展以及在高層視覺(jué)任務(wù)上的出色表現(xiàn),將其應(yīng)用到底層視覺(jué)任務(wù)上的工作也逐漸涌現(xiàn)出來(lái)。然后面臨的問(wèn)題卻很多,效果也不太理想。 來(lái)自上海交通大學(xué)的模式識(shí)別與智能系統(tǒng)博士,合合信息圖像算法研發(fā)總監(jiān)郭豐俊表示:底層視覺(jué)的理論和方法在眾多領(lǐng)域都有著廣泛的應(yīng)用,如手機(jī)、醫(yī)療圖像分析、安防監(jiān)控等。重視圖像、視頻內(nèi)容質(zhì)量的企業(yè)、機(jī)構(gòu)不能不關(guān)注底層視覺(jué)方向的研究。如果底層視覺(jué)沒(méi)做好,很多 high-level 視覺(jué)系統(tǒng)(如檢測(cè)、識(shí)別、理解)無(wú)法真正落地。看了他針對(duì)目前底層視覺(jué)技術(shù)在處理形變、模糊、陰影遮蓋、背景雜亂的文檔時(shí)遇到的典型問(wèn)題,就公司技術(shù)團(tuán)隊(duì)在智能圖像處理技術(shù)模塊、融合技術(shù)典型應(yīng)用、圖像安全領(lǐng)域等領(lǐng)域的研究成果進(jìn)行的分享后我深表贊同。 之后他介紹了合合信息智能文檔處理技術(shù)基于對(duì)圖像目標(biāo)區(qū)域的精準(zhǔn)裁剪,對(duì)彎曲、傾斜透視的頁(yè)面進(jìn)行形變矯正,在去除陰影、摩爾紋后,通過(guò)人工智能技術(shù)對(duì)文檔圖像進(jìn)行增強(qiáng)銳化和清晰度提升,能達(dá)到“圖像質(zhì)量增強(qiáng)”的效果,在改善閱讀體驗(yàn)的同時(shí),也提升了識(shí)別轉(zhuǎn)換、圖像分析等文檔處理下游任務(wù)的質(zhì)效,相關(guān)技術(shù)已通過(guò)“掃描全能王”等智能文字識(shí)別產(chǎn)品,服務(wù)全球上百個(gè)國(guó)家和地區(qū)的上億用戶: 去年我也使用過(guò)合合科技的PS檢測(cè)合摩爾紋去除等服務(wù),效果都很不錯(cuò),特別是PS檢測(cè)上,這一直是很多行業(yè)迫切需要解決的難點(diǎn),特別是在保險(xiǎn)、金融、銀行等領(lǐng)域,如果將虛假篡改過(guò)的信息資料審核通過(guò)可能會(huì)帶來(lái)巨大的影響甚至是經(jīng)濟(jì)上的損失: 會(huì)議中,來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)語(yǔ)音及語(yǔ)言信息處理國(guó)家工程實(shí)驗(yàn)室副教授杜俊做的文字識(shí)別工作也驚艷到了我。 如果僅僅是標(biāo)準(zhǔn)字體的圖文識(shí)別,那相對(duì)來(lái)說(shuō)很簡(jiǎn)單,但在很多現(xiàn)實(shí)場(chǎng)景中,字不一定會(huì)以規(guī)范的印刷體的形式出現(xiàn),這就給字的識(shí)別帶來(lái)了挑戰(zhàn),比如學(xué)生作業(yè)及試卷的錯(cuò)別字檢測(cè),醫(yī)囑識(shí)別等場(chǎng)景,如果能夠通過(guò)自動(dòng)化代替人工來(lái)做的話會(huì)對(duì)效率的提升和數(shù)據(jù)匯總分析等是特別有價(jià)值的。 杜俊教授的團(tuán)隊(duì)創(chuàng)建了一套基于部首的漢字識(shí)別、生成與評(píng)測(cè)系統(tǒng),因?yàn)榕c整字建模相比,部首的組合要少得多: 其中,識(shí)別與生成是聯(lián)合優(yōu)化的,這有點(diǎn)像學(xué)生學(xué)習(xí)時(shí)識(shí)字與寫(xiě)字互相強(qiáng)化的過(guò)程。評(píng)測(cè)的工作以往大多聚焦在語(yǔ)法層面,而杜俊的團(tuán)隊(duì)設(shè)計(jì)了一種可以直接從圖像中找出錯(cuò)別字并詳細(xì)說(shuō)明錯(cuò)誤之處的方法。這種方法在智能閱卷等場(chǎng)景中將非常有用。 除了文本之外,表格的識(shí)別與處理其實(shí)也是一大難點(diǎn),因?yàn)槟悴粌H要識(shí)別里面的內(nèi)容,還要理清這些內(nèi)容之間的結(jié)構(gòu)關(guān)系,而且有些表可能連線框都沒(méi)有。為此,杜俊團(tuán)隊(duì)基于SEM的表格結(jié)構(gòu)識(shí)別設(shè)計(jì)了一種「先分割,后合并」的方法: 即先把表格圖像拆分成一系列基礎(chǔ)網(wǎng)格,然后再通過(guò)合并的方式做進(jìn)一步糾正: 當(dāng)然,這些方法在多版式的場(chǎng)景下還存在局限性,杜俊教授也針對(duì)未來(lái)的工作做出了計(jì)劃和展望,希望能如他所愿: 三、總結(jié)在21世紀(jì),人工智能已經(jīng)進(jìn)入了騰飛的快車(chē)道,而且隨著人工智能技術(shù)的不斷完善和發(fā)展,人工智能也從生產(chǎn)領(lǐng)域擴(kuò)大到生活領(lǐng)域,滲透到了人類(lèi)生活的每一個(gè)細(xì)節(jié),有了人工智能技術(shù)的幫助,讓我們?cè)诔鲂?、學(xué)習(xí)、工作等方面越來(lái)越方便,變得更加智慧化。 經(jīng)過(guò)此次會(huì)議,讓我對(duì)人工智能技術(shù)的發(fā)展和應(yīng)用有了更清晰的認(rèn)識(shí),特別是會(huì)議上邱錫鵬教授對(duì)ChatGPT類(lèi)大語(yǔ)言模型的技術(shù)點(diǎn)深度剖析,讓我知道了ChatGPT的原理以及現(xiàn)階段的難點(diǎn)。ChatGPT的大火也充分展現(xiàn)了研發(fā)通用人工智能助手廣闊的研究和應(yīng)用前景,從客服問(wèn)答,智能引導(dǎo),靈感創(chuàng)造等都已出現(xiàn)了它的身影,可能現(xiàn)在還不夠成熟可靠,但它的出現(xiàn)讓我們有了希望,這也是越來(lái)越多的企業(yè)跟風(fēng)加入其中的原因。我相信,在不久的將來(lái),如同ChatGPT一樣的生成式人工智能產(chǎn)品將越來(lái)越頻繁地出現(xiàn)在我們的社會(huì)場(chǎng)景之中,成為常態(tài)。 郭豐俊博士在底層視覺(jué)技術(shù)處理圖像上的應(yīng)用分享讓我真正的感受到了智能數(shù)字化時(shí)代的高效和美好。以前處理PS痕跡檢測(cè)找了各種各樣的辦法,無(wú)論是exif識(shí)別還是用“放大鏡”工具手動(dòng)排查都無(wú)法高效準(zhǔn)確的解決此類(lèi)問(wèn)題?,F(xiàn)在通過(guò)先進(jìn)的底層視覺(jué)技術(shù)來(lái)智能化的進(jìn)行PS痕跡檢測(cè)在節(jié)約了大量的人力成本同時(shí),還提高了檢測(cè)效率及準(zhǔn)確性。這是人工智能價(jià)值最直觀的體現(xiàn)。 總而言之,AI時(shí)代已經(jīng)到來(lái),AI時(shí)代會(huì)讓世界更高效! |
|
來(lái)自: 曲鳥(niǎo) > 《待分類(lèi)》