最近遇到了一個問題。上傳的文檔文件給ChatGPT,但因為它識別解析文檔不準確導致回答錯誤的情況,影響了工作效率,讓我很是困擾。 很有幸今年參加了在西安舉辦的中國圖象圖形大會(簡稱:CCIG),解決了我的困擾。 可能很多小伙伴不知道CCIG是什么? CCIG即中國圖象圖形大會(Chinese Congress on Image and Graphics)是為貫徹落實國家“十四五”規(guī)劃,強化國家戰(zhàn)略科技力量,瞄準人工智能產(chǎn)業(yè)發(fā)展中的核心科技領域——圖像圖形領域而成立的會議。 由中國圖象圖形學學會創(chuàng)辦,中國圖象圖形學學會也是經(jīng)國家民政部批準成立的國家一級學會,由中國從事圖像圖形學基礎理論與應用研究,軟、硬件技術開發(fā)及應用推廣的專家學者和相關科技工作者組成,經(jīng)過30余年的發(fā)展,團結了一大批圖像圖形領域優(yōu)秀人才,擁有29個專業(yè)委員會和14個工作委員會,涵蓋了圖像圖形的各個領域,是圖像圖形學術界、產(chǎn)業(yè)界群賢畢至的年度盛會。 本屆大會以“圖象圖形·向未來”為主題,由中國科學技術協(xié)會指導,中國圖象圖形學學會主辦,蘇州科技大學承辦,特邀譚鐵牛院士、趙沁平院士、吳一戎院士等百余位國內(nèi)外知名學者,來自代表企業(yè)的技術專家,共話圖像圖形學術研究與技術創(chuàng)新趨勢,共謀行業(yè)新發(fā)展。 通過參與此次大會,讓我長了不少見識和學到了很多知識。尤其是對合合信息他們在智能文檔處理解析上的研究和成功頗為驚喜和印象深刻,因為他們推出的TextIn成功解決了我的開頭提到的困擾。借此機會給小伙伴們分享一下,也聊聊我的一些感悟和想法。 文檔解析技術加速大模型訓練與應用大模型訓練和應用關鍵環(huán)境面臨的問題在大會上,來自合合信息智能創(chuàng)新事業(yè)部研發(fā)總監(jiān)常揚指出了目前大模型訓練和應用過程的關鍵環(huán)節(jié)面臨的問題:訓練Token耗盡、訓練語料質(zhì)量要求高、LLM文檔問答應用中文檔解析不精準的情況: 針對訓練語料質(zhì)量不高及文檔解析不精準的問題,常揚舉了很典型的例子: 它給ChatGPT4一個pdf文件,由于解析不精準的問題導致ChatGPT識別錯誤,導致回答出錯的情況: 甚至問一個很簡單的問題:致謝環(huán)節(jié)提到了什么,ChatGPT還是解析定位不對,導致回答錯誤: 因此他們團隊希望研究具備多文檔元素識別、版面分析、高性能的文檔解析技術。 當然這里面存在很多難點:元素遮蓋重疊,元素本身的多樣性和復雜的版式等: 尤其是像下面這種具有閱讀(按序號閱讀)順序的文章,如果送給大模型的順序錯誤那就會導致訓練結果和識別回答結果與預期不符的情況: 以及無線表格和合并單元格的識別: 還有單行、行內(nèi)公式及表格內(nèi)公式的識別: 上述問題都是解析識別中非常常見且典型的問題。 合合信息推出的TextIn文檔解析是如何解決這些問題的針對這些問題他們團隊推出了TextIn文檔解析技術,針對電子檔、掃描件文檔進行預處理、識別和分析來提高大模型訓練語料質(zhì)量和更精準的文檔解析: 彎曲矯正技術合合信息的 "彎曲矯正技術" 創(chuàng)新性地采用基于位移場網(wǎng)絡學習方法的系統(tǒng)構架,可對彎曲地文檔進行曲面、透視矯正,同時智能定位文檔邊緣,能夠切除多余背景: 圖像文檔干擾去除算法他們團隊通過提取U2net卷積提取整個背景,然后去除模塊、摩爾紋以及光照影響后形成CAB結構,在進行信息融合生產(chǎn)更高質(zhì)量的圖像: 下圖是整個圖像處理的一個演示示例: 版面分析經(jīng)過上面操作提取出文字后,TextIn會對其進行版面分析,通過下圖所示的框架對文檔進行輸出,如圖右側所示: 正常的閱讀順序及布局應該如下圖所示: 但他們團隊在研究過程中發(fā)現(xiàn)真實世界的文檔布局類型是非常豐富的,并不能以一種結構來表示: 他們通過邏輯版面分析算法,通過Transformer架構,預測旁系類型與父子類型來還原正確的閱讀順序: 分析后得到的結果如下圖所示 自上而下的雙欄文檔能夠正確的識別順序: 單欄雙欄復合型文檔同樣能準確的識別順序: 不規(guī)則雙欄加圖表、表格同樣能準確的識別,甚至繪制出表格: 將TextIn解析技術+大模型結合后就能得到更高的文檔問答精度: 剛好合合信息提供了免費使用TextIn文檔解析的福利,大家訪問它們的官網(wǎng)https://www./即可進行體驗。我也在會后體驗了他們的產(chǎn)品,效果還是很不錯的。 體驗分享首先我使用TextIn提供的辦公文檔識別功能,可以看到能夠準確識別出我上傳的文檔內(nèi)容的段落和表格: 更為復雜的版式內(nèi)容:圖片、段落、小節(jié)等相結合的文檔也難不倒它: 哪怕包含數(shù)學公式計算的文檔也能準確識別: 隨后我嘗試了TextIn的通用文檔解析,除了準確的文字識別外,可以看到能將我上傳pdf中的無框表格內(nèi)容繪制成有框表格: 這對我來說是非常有幫助的一個小功能點。 合合TextIn提供的產(chǎn)品遠不止上面分享的這些內(nèi)容,還有票據(jù)和卡證識別、圖像篡改檢測功能產(chǎn)品的提供,感興趣以及有需求的小伙伴可以訪問https://www./進行體驗: 感悟總結現(xiàn)在是數(shù)字化的時代,越來越多的企業(yè)都在走向數(shù)字化的轉型,現(xiàn)實場景中有8成的數(shù)據(jù)都是非結構化的,比如郵件、書籍、圖片、和各種企業(yè)文檔等都是沒有固定結構。優(yōu)秀的文檔解析技術能夠從大量文檔中提取關鍵信息,使這些非結構化數(shù)據(jù)變得可結構化、可搜索、可分析,從而提升信息的利用率和工作效率。通過自動化解析后,辦公自動化才能更好的開展,比如自動處理發(fā)票、合同、報告等文檔,可以減少人工審核的工作量,降低錯誤率,提高業(yè)務流程的效率和準確性,這是非常有價值的事情。 對于需要遵守嚴格法規(guī)的企業(yè),文檔解析技術也能幫助進行自動審查文檔是否符合規(guī)定格式和內(nèi)容要求,支持審計跟蹤和合規(guī)性檢查。 除了企業(yè)外,對于視障人群也是能提供幫助的,文檔解析結合OCR(光學字符識別)技術,可以將紙質(zhì)文檔或圖像形式的文本轉換為可讀性強的電子文本,提升信息的可訪問性。 文檔解析識別是數(shù)字化時代信息處理的基礎能力,對促進信息的有效利用、提升工作效率、增強合規(guī)性和推動技術創(chuàng)新等方面發(fā)揮著不可替代的作用。 雖然現(xiàn)在仍存在一些挑戰(zhàn)和困難,好在越來越多的人加入到文檔解析、圖像處理的研究中。當我看到CCIG上的專家分享他們的成果以及合合信息TextIn的強大后,我相信隨著科技不斷的發(fā)展,大家不斷的努力再多的困難都會在不久的將來迎刃而解。 |
|