SCI文獻(xiàn)的全文翻譯一直是個(gè)技術(shù)難題,因?yàn)椋?/span> (1)PDF是非編輯文檔格式,在PDF中沒(méi)有段落的概念,也沒(méi)有語(yǔ)句的概念,所有文字、圖片、表格一切都是打印對(duì)象(Object);所以在源文檔轉(zhuǎn)成PDF的時(shí)候,段落和語(yǔ)句已經(jīng)消失了,甚至于一個(gè)單詞都被拆成兩個(gè)對(duì)象。然而翻譯引擎需要按段落或者按語(yǔ)句才能準(zhǔn)確翻譯;如果按打印對(duì)象進(jìn)行翻譯,必然是支零破碎、不知所云。因此,我們需要從PDF中“還原段落”,這個(gè)逆向運(yùn)算是很復(fù)雜的。 (2)SCI文獻(xiàn)一般都是雙欄排版,甚至三欄排版,而且文字和圖片、表格交織,這也給段落還原算法帶來(lái)了更大挑戰(zhàn)。 下面看兩篇論文的示例: 1 肺癌大劑量放療 原文:前言部分 某歌文檔翻譯:內(nèi)容不連貫 深容SCITranslate全文翻譯,內(nèi)容和排版都更好 原文:方法部分,請(qǐng)注意斷裂的單詞(腺癌、斷層放療、可檢測(cè)的) 某歌翻譯:譯文難懂,三個(gè)斷裂單詞譯錯(cuò)兩個(gè) 深容SCITranslate:譯文準(zhǔn)確,斷裂單詞也完全正確 原文:討論部分 某歌翻譯:譯文難懂,格式也不美觀 深容SCITranslate:內(nèi)容準(zhǔn)確,排版整潔 2 COVID-19突變 原文:前言部分 某歌翻譯:內(nèi)容不連貫,難以理解 深容SCITranslate:譯文接近人工翻譯 原文:方法部分,請(qǐng)注意斷裂詞(系統(tǒng),文庫(kù)富集) 某歌翻譯:內(nèi)容不可讀,兩個(gè)斷裂詞翻譯都不準(zhǔn)確 深容SCITranslate:譯文很地道,斷裂單詞翻譯正確 原文:方法部分 某歌翻譯,跨頁(yè)啦 深容SCITranslate:翻譯準(zhǔn)確 原文:討論部分 某歌翻譯:譯文不流暢,格式很亂 深容SCITranslate:譯文準(zhǔn)確,格式整潔 通過(guò)兩種全文翻譯的比較很容易發(fā)現(xiàn),深容SCITranslate 20.0 版已經(jīng)較好的解決了全文翻譯的難題,這對(duì)于文獻(xiàn)泛讀非常有用。同時(shí)我們必須聲明:這項(xiàng)技術(shù)只是在某歌工作基礎(chǔ)上的一點(diǎn)點(diǎn)改進(jìn),我們是站在某歌巨人肩膀上,感謝某歌強(qiáng)大的翻譯引擎。 SCItranslate20 軟件下載地址: (請(qǐng)用Windows電腦下載使用) http://www./s20.htm 老用戶不需要下載,請(qǐng)進(jìn)入原軟件目錄,運(yùn)行一下更新程序,快速升級(jí)! 如果殺毒軟件誤殺怎么辦? 由于自動(dòng)升級(jí)功能涉及exe文件的下載,部分殺毒軟件誤報(bào)病毒,深容擔(dān)保絕對(duì)沒(méi)有病毒或木馬。解決方法如下:先建一個(gè)專用文件夾,在Windows安全中心,把這個(gè)文件夾設(shè)為排除項(xiàng),然后把壓縮包下載到該文件夾,解壓即可。其它殺毒軟件請(qǐng)自己搜索一下如何設(shè)置安全目錄。 |
|
來(lái)自: 日有所獲的小白 > 《論文寫(xiě)作》