融媒時代,新技術(shù)如何為編輯工作賦能 洪 濤 古聯(lián)(北京)數(shù)字傳媒科技有限公司總經(jīng)理 首先,古聯(lián)(北京)數(shù)字傳媒科技有限公司(簡稱“古聯(lián)公司”)是中華書局的古籍數(shù)字化公司,主要承擔的是古籍數(shù)據(jù)庫建設、數(shù)字技術(shù)研發(fā)等工作,與書局的傳統(tǒng)出版有所不同,屬于廣義的“融媒”的概念。其次,古聯(lián)公司成立五年以來,我個人并沒有完全參與過圖書的編輯工作,所以對于“融媒時代,文獻學術(shù)類編輯應該如何做”這類話題我暫不提個人看法,我想稍微調(diào)換角度,談一下在當今的技術(shù)條件下,我們能給編輯哪些幫助。 “融媒”這個概念講的是多種媒體的整合與運作,在一家出版社內(nèi)部會有獨立的部門操盤,對編輯個人來說更多的是信息利用?!捌浔澈箅[含了更多的概念:數(shù)據(jù)、技術(shù)、創(chuàng)新、服務,等等。對于文獻學術(shù)類圖書編輯來說,我想要關(guān)注新技術(shù)工具可能為編輯工作帶來的生產(chǎn)力提升。 使用數(shù)據(jù)庫開展工作已經(jīng)是每個編輯必備的技能,核查引文、核對史實、檢查字型讀音,面對這樣的基礎工作,數(shù)據(jù)庫和網(wǎng)絡更多地替代了傳統(tǒng)工具書成為編輯的首選。市場上的數(shù)據(jù)庫是豐富的也是蕪雜的,編輯使用前首先要了解數(shù)據(jù)庫的性質(zhì)和特點。如中華書局的“中華經(jīng)典古籍庫”注重整理出版成果的高質(zhì)量呈現(xiàn)。其他一些數(shù)據(jù)庫有的注重海量文本,有的注重特色資源。最近比較熱的一個事件來源于北大微博使用“須知少年凌云志,曾許人間第一流”一詩,過程不再詳述。吳慶坻《題三十小像》的末句“須知少日拏云志,曾許人間第一流”不知何時被網(wǎng)友加了兩句“哪曉歲月蹉跎過,依然名利兩無收”成為“新詩”。用戶自己生產(chǎn)的內(nèi)容如今在搜索引擎的推波助瀾下反而被大部分人當成了原作?!爸酢鄙弦黄恼绿岬?,在“中華經(jīng)典古籍庫”所收錢仲聯(lián)先生主編《清詩記事》中查到原詩,算是加深了對原作的認識和對整個事件的了解,由此感慨互聯(lián)網(wǎng)時代人們生產(chǎn)的海量數(shù)據(jù)導致我們的知識圖譜被污染。在這個數(shù)據(jù)獲取更加便利的融合時代,編輯在工作中注意選擇一個可信的數(shù)據(jù)源成為首要問題。 技術(shù)依托數(shù)據(jù)在不斷發(fā)展。以前很多不敢奢望的提高文獻學術(shù)類圖書編輯生產(chǎn)力的工具和方法正不斷出現(xiàn)。我使用過傳統(tǒng)校對軟件,倍感其在文獻整理類稿件上的無力。在加工“中華經(jīng)典古籍庫”數(shù)據(jù)的過程,我們對紙書常見編校錯誤有了更多的認識。通過十幾億字整理本古籍的數(shù)據(jù)加工,發(fā)現(xiàn)不少易錯的問題可以用數(shù)字技術(shù)進行檢查。古聯(lián)公司在開發(fā)“中華經(jīng)典古籍庫”之后第一個想到的就是利用古籍庫的數(shù)據(jù)輔助編校工作。比如引文核對,我們利用“中華經(jīng)典古籍庫的數(shù)據(jù)”制作了一套引文核對系統(tǒng),分析稿件中的引文信息,并和數(shù)據(jù)庫自動比對,檢查文獻引用原文和出處是否有誤。這對于核查引文工作量比較大的稿件,編輯效率的提升是非常明顯的。又如我們制作了一套繁簡轉(zhuǎn)換工具,除了制作專業(yè)的繁簡對照字表,還讓機器學習了大量繁簡體對應的出版物,如中華書局出版的繁體豎排本古籍和“中華國學文庫'這套書,學習各種固定搭配、轉(zhuǎn)換語境和轉(zhuǎn)換規(guī)則,讓繁簡轉(zhuǎn)換可以更加準確。這個編輯工具中還植入了大量的注號、標點、規(guī)范字等依靠規(guī)則可以自動檢查的內(nèi)容,由此構(gòu)成了一個對文獻學術(shù)稿件更有針對性的機器檢查系統(tǒng)。也許這個編輯工具并不是所有編輯都能夠接觸到,但是其除了依托底層資源庫和機器學習的部分外,核心就是用計算機進行本文處理。其中有一些檢查工作是編輯可以利用office軟件能夠完成的。這套利用機器檢查稿件問題的工作方式并不難建立。希望相關(guān)編輯能夠根據(jù)自己手頭稿件建立更有針對性的檢查方法和檢查數(shù)據(jù)。 “中華經(jīng)典古籍庫”(鏡像版)閱讀界面 再舉一個例子。古籍自動標點技術(shù)很多年前就有人在不斷探索,但是進展不大,以至于大家對古籍自動標點的實用性并不看好。這兩年,隨著深度學習模型的開發(fā),古籍自動標點的效果突飛猛進地發(fā)展。最近實驗的結(jié)果表明,排除一些特殊領域和格式的古籍,自動標點的正確率(包含錯標和漏標的情況)達到92%左右。這個數(shù)值還在隨著模型的調(diào)整不斷提高。在很多人看來92%的正確率并沒有什么意義,與出版的要求相距甚遠。但是從實際工作角度來說,在自動標點的基礎上繼續(xù)由人工標點,相比于單純?nèi)斯它c,可以顯著提高標點工作的效率。自動標點也可以作為輔助檢查手段,發(fā)現(xiàn)一些人工標點的錯誤。不僅僅是自動標點,最近幾年OCR文本識別、古籍分詞、命名實體識別等技術(shù)都有了長足的發(fā)展,雖然還和人工的精準度有顯著的差別,但是如果善加利用,還是能夠起到提升編校工作效率的作用。 除了數(shù)據(jù)和技術(shù),融媒時代另外一個重要特征是互聯(lián)。當今流行的“數(shù)字人文”,其中一個概念就是打破傳統(tǒng)人文學者單槍匹馬的研究模式,讓人文學者和數(shù)據(jù)科學家一起工作來解決問題。編輯的工作模式往往也是單槍匹馬,一本書負責到底。但是遇到那些超大部頭的作品,個人往往無能為力。古聯(lián)公司最近兩年面對這種狀況,開發(fā)了一個基于眾包模式的在線編校平臺,將大部頭作品拆分成小的部分,放在眾包平臺上,在網(wǎng)上招攬人員共同開展校對和編輯工作,協(xié)助責任編輯加快稿件的處理速度。眾包環(huán)節(jié)需要大量的流程優(yōu)化和組織工作,并不容易。處理后也依然需要后續(xù)流程才能達到出版要求。但在實踐上取得了很好的效果,大幅提升了大部頭作品的編輯出版速度,成為一種具有發(fā)展價值的工作模式。 古聯(lián)公司這些年來,一方面開發(fā)專業(yè)數(shù)據(jù)庫產(chǎn)品,一方面做傳統(tǒng)出版與數(shù)字技術(shù)的融合。在圖書出版前和出版后的不同環(huán)節(jié),傳統(tǒng)業(yè)務都有與數(shù)字技術(shù)融合發(fā)展的要求。在文獻學術(shù)出版領域,我們更加關(guān)注于出版前的融合,通過技術(shù)、數(shù)據(jù)和平臺提高生產(chǎn)速度和編輯質(zhì)量。如果要對編輯提出什么希望的話,就是希望編輯在新時代更多地關(guān)注技術(shù)發(fā)展帶來的變革,更主動地利用數(shù)字技術(shù)解決問題。同時,歡迎一線的編輯們能夠提出問題,我們來嘗試著給出答案。 |
|