把掃描的文檔轉(zhuǎn)成電子版

喵喵和小豬豬 2010-08-11

展開全文

如果你用的OFFICE2003的話，Microsoft Office工具里還有一個Microsoft Office Document Imaging，不用重新下軟件那么辛苦。
若你實在想，就到http://post.baidu.com/f?kw=ocr去下吧。
安裝一個文字識別（OCR）軟件用來識別已提取的圖像
本人推薦漢王文本王。理由：
1）識別率高，可識別英文、表格等
2）可以直接輸出成WORD文件

詳解：
掃描儀的一個重要功能就是通過OCR軟件(即文字識別軟件)將掃描后的文字圖像轉(zhuǎn)換成文本格式的文件，使文字處理軟件能夠調(diào)用處理。這樣可以大大提高文字錄入速度，極大地提高工作效率。目前，文字識別軟件主要有《漢王尚書OCR》和《文通TH-OCR》和《紫光OCR》等幾種。不過，我們在進行文字識別時經(jīng)常會遇到識別率低的問題，其原因除了被識別稿件有問題外，主要還是我們沒有掌握好掃描及OCR識別軟件的使用技巧。那么進行文字識別時有哪些技巧呢?

一、根據(jù)識別稿的質(zhì)量進行處理

進行掃描識別時，在可能的情況下應(yīng)盡量選擇清晰度與潔凈度都很高的識別稿，識別稿的清晰度與潔凈度的不同會使掃描后的識別率有很大差距。對一般的印刷稿、打印稿等質(zhì)量較好的文稿進行識別，只要掌握好方法與技巧，其識別率一般可達到98%以上。而對報紙、雜志等清晰度不佳的原稿進行識別，無論使用何種識別軟件都難以達到很高的識別率。

1.對一些帶有下劃線、分隔線等符號的文本原稿，有些OCR軟件是識別不出的，一般會出現(xiàn)亂碼。如果必須掃描帶有這些符號的原稿，一是要確保使用的識別軟件能夠識別這些符號。二是使用工具擦掉這些特殊符號，使識別軟件能正確識別這些文字。

如果掃描后的文檔中含有OCR軟件不能識別的圖像、圖形和一些特殊符號，可以考慮使用“擦拭”工具將文檔中的圖像、圖形和一些特殊符號擦除，同時將圖像上一些雜點也一并去除。使圖像中除了文字沒有多余的東西，這可以大大提高識別率并減少識別后的修改工作。

2.在掃描識別報紙或紙張較薄的文稿時，掃描時稿件背面的文字通常會透過紙張造成錯字或亂碼，使識別率大大降低。在對這類原稿掃描時，我們可以在原稿的背面覆蓋一張黑紙，在進行正式掃描時，適當增加掃描對比度或亮度，即可有效提高識別率。

圖1

3.對于一些圖文混排的原稿，掃描成一幅圖像進行全區(qū)識別會嚴重影響OCR軟件的識別率。我們可以根據(jù)實際情況將掃描后的版面切分成多個區(qū)域后再識別，切分區(qū)域的原則是:將圖形、圖像排除在區(qū)域之外(圖1)，盡量把文字字體、字號一致的劃在一個區(qū)域內(nèi)，不要嫌這個過程煩瑣而選用自動切分區(qū)域，手動選取掃描區(qū)域會有更好識別效果，還應(yīng)注意各識別區(qū)域不能有交叉情況。

二、掃描識別稿的操作技巧

1.首先要保持工作環(huán)境的清潔，掃描儀的玻璃板以及若干個反光鏡片及鏡頭，其中任何一部分臟污都會影響掃描文字圖像的效果。因此，保持掃描儀的清潔是確保文字圖像掃描質(zhì)量及識別率較高的重要前提。

2.掃描儀在剛開啟時，光源的穩(wěn)定性較差，而且光源的色溫也沒有達到正常工作所需的色溫，所以開始掃描以前最好先讓掃描儀預(yù)熱一段時間。

3.在放置掃描原稿時，把掃描的文字材料擺放在掃描起始線正中，可以最大限度地避免由于光學透鏡導(dǎo)致的失真而影響識別率。

4.掃描后的文字圖像經(jīng)常會有一定角度的傾斜，出現(xiàn)這種情況必須在掃描后使用自動或手動旋轉(zhuǎn)工具進行糾正，OCR軟件一般都設(shè)有自動糾偏和手動糾偏工具。否則OCR識別軟件會將水平筆畫當作斜筆畫處理，識別率會下降很多。如果掃描后的文字圖像傾斜角度超過15°，傾斜校正會產(chǎn)生較大的失真和誤差，從而嚴重影響識別率，這種情況建議擺正原稿重新掃描。

三、掃描參數(shù)的設(shè)置

掃描參數(shù)的設(shè)置主要包括分辨率的設(shè)置及亮度和對比度的設(shè)置。

1.一般來講，分辨率越高識別率也就會越高。但這也不是絕對的，對于一些過大過粗的字體，設(shè)置過高的分辨率，識別率可能會降低，而且設(shè)置高分辨率后，掃描速度會大大降低。根據(jù)實際經(jīng)驗，1、2、3號字的文稿推薦使用200dpi，4、小4、5號字的文稿推薦使用300dpi，小5、6號字的文稿推薦使用400dpi，7、8號字的文稿推薦使用600dpi(圖2)。

圖2

圖3

2.掃描時適當?shù)卣{(diào)整好亮度和對比度值，對識別率的高低影響很大，在進行掃描亮度和對比度的設(shè)定時(圖3)，以掃描后的圖像中文字的筆畫較細、均勻，且沒有明顯斷點為準。如果掃描后的文字圖像存在黑點、黑斑或文字線條很粗很黑，分不清筆畫，說明亮度值太小，應(yīng)該增加亮度值再重新掃描。如果文字線條凹凸不平，有斷線甚至圖像中漢字輪廓嚴重殘缺時，說明亮度值太大，應(yīng)減小亮度后再重新掃描。如果要掃描質(zhì)量比較差的文稿，比如報紙，掃描出的圖像可能會出現(xiàn)大量的黑點，而且在字體的筆畫上也會出現(xiàn)粘連現(xiàn)象，為獲得較好的識別結(jié)果，必須仔細進行亮度和對比度值的調(diào)整，反復(fù)掃描多次才能獲得比較理想的效果。

四、識別后的處理工作

1.文字校正

文字校正是OCR識別工作中比較煩瑣的一步。一般OCR軟件對可能出現(xiàn)錯誤的文字，會顯示出藍色標記，請用戶確認。但在沒有提示出錯的地方，也有可能出錯。所以大家在校對時應(yīng)該通讀一遍，以提高文字錄入的準確率。

2.識別后文本的保存

如果把識別后的文本簡單復(fù)制粘貼到Word中保存處理，就需要去掉多余的硬回車，這樣會非常麻煩。正確方法是:先將識別后的文本存盤，在存盤時設(shè)置為軟回車就行了。對于《紫光OCR》，則需要在識別完成后，選擇文件菜單下的導(dǎo)出命令，將存儲類型選為TXT，段內(nèi)回車字符選為無。注意:一定不要直接存盤，否則不能自動去掉文章的硬回車。《漢王尚書OCR》和《文通TH-OCR》都提供了段內(nèi)去除硬回車的功能。