破繭成蝶:古籍?dāng)?shù)字化的窘境與生機——第三屆中國古籍?dāng)?shù)字化國際學(xué)術(shù)研討會側(cè)記林曉山 《 光明日報 》( 2011年11月07日 15 版)
編者按:黨的十七屆六中全會作出的《推動社會主義文化大發(fā)展大繁榮若干重大問題的決定》把推進文化典籍資源數(shù)字化,看做是建設(shè)優(yōu)秀傳統(tǒng)文化傳承體系的重要手段。推進古籍?dāng)?shù)字化的研究與開發(fā),對于加強優(yōu)秀傳統(tǒng)文化思想價值的挖掘和闡發(fā),建設(shè)中華民族共有精神家園具有重要的戰(zhàn)略意義。本期刊出的兩篇古籍?dāng)?shù)字化文章,從不同角度展示了我國古籍?dāng)?shù)字化取得的成就,同時也分析了存在的問題、困難。我們期待廣大讀者給予古籍?dāng)?shù)字化工作以更多的關(guān)注。 數(shù)字化是一場巨大的革命,正深刻影響著我們的生活,每個領(lǐng)域幾乎都被卷入其中,即便是甘守寂寞的古籍,也概莫能外。20世紀(jì)70年代末古籍?dāng)?shù)字化最早開始于的美國;80年代,港臺地區(qū)探路于前;90年代,中國繼踵于后。進入21世紀(jì),古籍?dāng)?shù)字化已呈星火燎原之勢,發(fā)展之迅猛超乎意料。 然而近兩年,古籍?dāng)?shù)字化的步伐卻有所放緩,呈現(xiàn)瓶頸效應(yīng),又仿佛一只即將破繭的蝴蝶,在靜靜積蓄力量。 金秋時節(jié),50余家學(xué)術(shù)及出版機構(gòu)的60余名專家學(xué)者,從海內(nèi)外各個角落齊聚北京,第三屆中國古籍?dāng)?shù)字化國際學(xué)術(shù)研討會如約舉行。古籍?dāng)?shù)字化突破瓶頸,期待同業(yè)者的集思廣益群策群力;會上,新觀點、新思想的碰撞,新技術(shù)、新成果的涌現(xiàn),無不呼應(yīng)著古籍?dāng)?shù)字化前進的步伐。 窘 境 人人都羨慕陽光下蝴蝶的美麗,又有誰知道黑暗中蛻變的痛苦滋味。 (一)標(biāo)準(zhǔn)之爭——標(biāo)準(zhǔn)缺乏,各自成理 會議伊始,原國家古籍整理出版規(guī)劃小組辦公室主任許逸民便把一個大家最關(guān)切的問題提了出來——漢字簡繁轉(zhuǎn)換問題。如何處理轉(zhuǎn)換過程中的異體字,是所有古籍整理者都望而生畏的難關(guān),因為這不僅牽涉到全文檢索,更會引發(fā)學(xué)術(shù)爭議。繁體字正字表至今尚無國家標(biāo)準(zhǔn),致使同一字在古籍出版物和數(shù)據(jù)庫中出現(xiàn)不同字形,如“為”和“爲(wèi)”,“劍”和“劒”,孰正孰異,莫衷一是,天下擾攘,亂相遂生。 當(dāng)前最迫切需要的便是建立古籍?dāng)?shù)字化的國家標(biāo)準(zhǔn),奈何主管部門礙于諸般顧慮,始終未能著手制定。首都師范大學(xué)中國詩歌研究中心主任趙敏俐感慨:古籍?dāng)?shù)字化的發(fā)展過程中,民間的積極性非常高,不斷有學(xué)者呼吁建立國家標(biāo)準(zhǔn);或退而求其次,先由民間建立通用標(biāo)準(zhǔn),再得到國家認(rèn)定也可。但如果這套民間標(biāo)準(zhǔn)真的推出,國家是否會予以認(rèn)定,他對此深表懷疑。 首都師范大學(xué)周文業(yè)研究員形容當(dāng)前中國大陸的古籍?dāng)?shù)字化現(xiàn)狀為“春秋戰(zhàn)國,群雄割據(jù)”。上世紀(jì)90年代古籍?dāng)?shù)字化在中國剛興起之際,政府未能及時介入,徒然錯失先機,如今爭霸局面已成,再想統(tǒng)一,為時晚矣! 盡管如此,大多數(shù)學(xué)者還是希望古籍?dāng)?shù)字化能有一套起碼的標(biāo)準(zhǔn)通行。會議主辦方、首都師范大學(xué)電子文獻研究所所長尹小林提出了建設(shè)古籍?dāng)?shù)據(jù)庫的八條標(biāo)準(zhǔn):其一,有確定的底本和書目提要;其二,文字差錯率小于萬分之一;其三,有簡繁體兩種文字,并實現(xiàn)相互對應(yīng);其四,應(yīng)帶有新式標(biāo)點;其五,含高清版的底本圖像(可實現(xiàn)8倍縮放);其六,提供智能化的全文檢索(Unicode內(nèi)核);其七,具有智能數(shù)據(jù)分析統(tǒng)計工具;其八,可實現(xiàn)多種數(shù)據(jù)格式的轉(zhuǎn)換和輸出。這八條標(biāo)準(zhǔn)都是在古籍?dāng)?shù)字化工作過程中逐漸總結(jié)形成的,具有很強的專業(yè)性和實用性,因而獲得了與會專家們的一致認(rèn)可。 與建立標(biāo)準(zhǔn)息息相關(guān)的還有資源整合問題,河南新鄉(xiāng)學(xué)院文學(xué)院副教授毛建軍認(rèn)為,資源整合是一項龐大而長期的工程,非朝夕之間能夠完成,建立古籍?dāng)?shù)字化資源導(dǎo)航庫將不失為一種方便快捷、切實可行的整合方式,并建議從數(shù)據(jù)庫類型、建置單位和數(shù)據(jù)庫主題三種途徑進行導(dǎo)航設(shè)計。 標(biāo)準(zhǔn)如綱,導(dǎo)航如網(wǎng),綱振網(wǎng)舉,方可盡攬群籍。 (二)版權(quán)之爭——天下公器,安能獨私 由于古籍真正的作者皆已作古,無法穿越時空來捍衛(wèi)自己的原創(chuàng)地位,因此古籍早已作為文化遺產(chǎn)被納入了公共知識的范疇。所謂古籍的版權(quán),實際是針對整理者而言的。 如今常見的古籍絕大多數(shù)都已被點校出版,版權(quán)握于傳統(tǒng)出版社之手。為了避免糾紛,數(shù)字出版者們只好舍近求遠,返擇古本為底本,重起整理之爐灶,可還是難免“抄襲”嫌疑。 古籍整理猶如積薪,后來居上,一代又一代學(xué)者無不是站在前人的肩上,向著理想中的最佳版本一步又一步邁近。前人遇到的坎,后人學(xué)會跨過。前人走錯的路,后人不必再走。如果因為整理在先,傳統(tǒng)出版便將大批古籍資源壟斷在手;如果因為點校相似,數(shù)字出版便被想當(dāng)然地認(rèn)定有侵權(quán)之嫌;那么古籍的命運就當(dāng)真堪憂了。 中華書局編審劉尚慈不無遺憾地說:“真正的最佳版本存在于當(dāng)下,就是那些經(jīng)過專家標(biāo)點校勘過的本子。我們的古籍最應(yīng)該數(shù)字化這些本子,可惜卻受到版權(quán)限制,沒有辦法進行。而真正擁有版權(quán)的出版社,卻又沒有能力進行?!?/P> 高校古委會秘書處副秘書長盧偉希望在互聯(lián)網(wǎng)上建立一個開放的資源平臺,“怎么能夠在共享和利益之間找到平衡,讓大多數(shù)的學(xué)者都愿意把自己的成果投入進來”,是這個平臺建立的關(guān)鍵。 生 機 一只蝴蝶扇動翅膀,不久的將來會在遙遠的彼岸掀起一場颶風(fēng)。 古籍?dāng)?shù)字化發(fā)展至今,坐擁海量古籍資源,除了全文檢索、聯(lián)機字典、圖文對照、繁簡轉(zhuǎn)換之外,數(shù)字化究竟還能做些什么? 本屆會議為這個問題帶來了幾種可能的答案。 (一)版本比對與輔助標(biāo)點——人力有盡,天道無窮 人類智慧無敵,機器效率無敵,人機合一,所向披靡。這正是古籍?dāng)?shù)字化孜孜以求的理想境界,雖然目前尚無法達到,卻依然不乏希望。會上首都師范大學(xué)電子文獻研究所演示的古籍智能版本比對和輔助標(biāo)點系統(tǒng),便讓人眼前一亮。 所謂智能版本比對,指能自動進行多種版本的逐字比對,完成后即可標(biāo)示出文字和符號的任何差異。所謂智能輔助標(biāo)點,則使用了前沿的人工智能算法和多種資源庫,理想狀態(tài)下自動標(biāo)點準(zhǔn)確率在99.5%以上,機器無法完全識別的情形下會自動提示專家進行人工干預(yù)?!皢螒{肉眼,很難分辨文字上的一些細微差異?!币×终f,“如‘礻’和‘衤’、‘曰’和‘日’等,即使底本就在眼前,只怕也會誤認(rèn),但對于電腦而言,卻是完全不同的兩個編碼,識別起來絕無含糊。其實,比對的目的還是為了查錯,在這方面,電腦的優(yōu)勢遠非人眼所能比擬?!?/P> 新聞出版總署規(guī)定圖書出版質(zhì)量標(biāo)準(zhǔn)為差錯率不得超過萬分之一。換作從前,這個標(biāo)準(zhǔn)很難得到徹底執(zhí)行,但現(xiàn)在卻是輕而易舉。電子文獻研究所曾用智能版本比對系統(tǒng)抽查了部分古籍圖書,發(fā)現(xiàn)即便是權(quán)威出版社出版的權(quán)威版本,也有不合格者,更遑論其他普通版本。這一比對方法若能在今后的古籍??敝屑右孕Х?,相信定會從整體上提升古籍的出版質(zhì)量。 除了自動??保詣訕?biāo)點同樣是古籍整理工作者夢寐以求之事。而智能輔助標(biāo)點系統(tǒng)的出現(xiàn),讓這個夢想變得唾手可得,盡管還不完美,卻足以令人驚喜。借助該系統(tǒng),不僅免除了許多無謂的重復(fù)勞動,還可以把節(jié)省下來的時間投入到更重要的研究中去,這無異于延長了學(xué)者的生命。為此,電子文獻研究所于年初啟動了文淵閣四庫全書版《二十四史》的整理工程,權(quán)作試點,若然可行,便推而廣之。他們的雄心壯志,是要最終完成文淵閣四庫全書的標(biāo)點出版。此愿如能實現(xiàn),誠乃中華文明之莫大幸事!我們將拭目以待。 (二)GIS技術(shù)與文學(xué)地圖——他山之石,可以攻玉 GIS即地理信息系統(tǒng),如今廣泛應(yīng)用于交通導(dǎo)航、城市規(guī)劃、資源調(diào)查、環(huán)境評估、災(zāi)害預(yù)測、國土管理等幾乎各個領(lǐng)域。本質(zhì)上,GIS也是一個數(shù)據(jù)庫,只不過儲存的是地理信息而已。因此,GIS對于古籍?dāng)?shù)字化必然有許多值得借鑒之處。 受此啟發(fā),武漢大學(xué)文學(xué)院教授王兆鵬在會上提出了一個大膽的構(gòu)想——利用GIS技術(shù)整合靜態(tài)分散的文學(xué)史料,建立多功能的中國文學(xué)數(shù)字化地圖平臺。該平臺將具有資料查詢、數(shù)據(jù)統(tǒng)計、地圖生成等功能,既可以查詢中國古今文學(xué)家生平和作品中的重要信息,也可以進行分類統(tǒng)計,還可以用電子地圖來呈現(xiàn)統(tǒng)計結(jié)果。地圖可以顯示每個時間點和時間段,中國各個地方有哪些作家在此地出生、在此地過世、在此地活動和創(chuàng)作;更可以顯示一個作家生于何地(或所屬籍貫)、在哪些地方活動過,在哪些地方創(chuàng)作了哪些作品、跟哪些人一起交游互動并能按時間先后順序自動生成作家行蹤路線圖。 這個構(gòu)想是相當(dāng)宏大和富有創(chuàng)意的,其核心框架還可以靈活套用在諸如歷史、哲學(xué)、宗教等其他學(xué)科領(lǐng)域,就好像民間故事中的母題,擁有被無限復(fù)制的潛力。平臺建成后,可以從時間和空間兩個維度上提供多種觀察文學(xué)的切口和視點,將很可能帶來文學(xué)研究范式的革命性變化。雖然目前這個構(gòu)想還只停留在理論階段,并未付諸實施,但其遠大前景是完全可以預(yù)期的。 |
|