小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

文本到底是什么?

 開心海綿 2016-06-19
[摘 要] 文本在計算機上的表示方式影響著文本創(chuàng)作者與其他用戶使用文本的方式?,F(xiàn)有的電子文檔模型還有很多不足和局限。筆者認為文本最好的表示模型是有序的分層內容對象模型(OHCO),這種模型揭示了文本到底是什么這一根本問題。OHCO模型符合SGML等新興標準,且有利于作者、出版商、研究者等不同用戶。本文介紹了該層次模型以及未來如何將文檔作為一種數(shù)據(jù)庫、超文本、網(wǎng)絡來加以利用和重用。

管計算機領域早就有人預言過無障礙信息獲取與交互的近乎魔術般的未來,經(jīng)過多年的發(fā)展,阿蘭·凱所謂的“駕駛噴氣飛機在信息空間穿梭”的愿景仍未能實現(xiàn)。但是我們堅信計算機在服務普羅大眾,特別是學術活動上有著巨大的潛力,其服務涉及研究、思考、寫作以及記錄和組織信息等多個領域。然而,當前的軟件技術還做不到這一點。在本文中,我們將研究計算機文本模型如何約束研究人員的文本處理能力。我們認為借助一些更復雜的模型(能更好地反映文本和文檔本質的模型),研究者可以得到一些夢寐以求的結果。
長期以來,當人們面對電腦或電子終端時,最大的感受就是打字輸入越來越快、越來越方便,但大部分行為和操作與過去的碳帶打印相差無幾。這一情況說明,計算機的強大功效尚未被充分開發(fā)利用。比缺乏實質性改進更糟糕的是,有些傳統(tǒng)機械的優(yōu)點也被弄丟了,看看下面這些筆墨時代從未出現(xiàn)過的問題:

·因為使用了不同的文字處理程序,導致我們無法與同事共享文檔(或“文件”);
·出版商因無法使用磁盤上的文件直接排版,而重新錄入所有內容,結果出現(xiàn)新的錯誤;
·即使是校園挨得很近的不同打印機也會打印出不同的結果(有時可能完全打不出來);
·多年在線工作積累的大量文本(論文、研究報告、書目列表等)不能有效地查找:可能我們知道某個參考文獻在磁盤上的某個地方,但就是找不到它。

我們認為大部分蹩腳的文本處理程序,以及印刷、可移植性還有信息檢索方面的問題都有一個共同的源頭。它既不是計算能力、內存或像素方面的欠缺,也不是程序設計不夠巧妙或用戶友好性不足。這是一個根本性問題,與計算機文本的表示方式有關。硬件與編程技巧的改進并不能從根本上克服文本表示上的缺陷。

在各種信息交流形式中,組織結構清晰的文本歷史最為悠久,也是諸多學者關注的焦點,所以我們選擇文本作為本文的研究對象。我們認為文本的組織規(guī)則在應用于新舊不同的媒介時,必須進行更改。

1 OHCO:文本究竟是什么?

文檔在計算機上的表現(xiàn)形式應當能反映文檔的本質。所以第一個問題就是“什么是文檔”?解決該問題的方法是首先要考慮要素的問題:改變文檔的什么東西會讓文檔發(fā)生根本性變化,什么東西改變了還是原來那個文檔?

毋庸置疑,上面兩個文檔片段是“相同的”。對于一般性目的來說——有意義的內容單元——上面的文字是一樣的。但是,如果我們對版式進行深度的而非淺顯的調整,二者就會不同。差別主要來自于形式,而非內容。

我們把文本的本質部分稱之為“內容對象”,它的類型很多樣,例如段落、引用語、著重語和觀點等。在打印和顯示文檔時,每種類型的內容對象都有自己的表現(xiàn)樣式,但它們是表面的和短暫性的,而非本質性的——內容元素及其內容本身才是文檔的根本。當給這些對象指定了特定的助記名稱后,就可以說文檔含有“描述性標記”。

大多數(shù)內容對象都包含在更大的內容對象之中,像小節(jié)、節(jié)和章的關系。在上面的例子中,段落包含了兩段引用語,第二段引文中含有一個著重元素。一般來說,較小的內容對象不能跨越較大的內容對象的邊界;因此一個段落不會在一章開始而到下一章才結束。有鑒于此,文檔可以說是分層的,像一棵樹或分類法。

較小的內容對象存在于較大的內容對象中,比如一章中含有多個節(jié),一節(jié)又含有多個段落、引用塊和其他對象,這些對象按照一定順序排列。這個順序很關鍵,在任何文本結構模型中都必須存在。
結合這些基本要素,我們可以將文本描述為一個“內容對象的有序層次結構”(Ordered Hierarchy of Content Objects,OHCO)。這是本文以下章節(jié)討論的文本的基本模型。在解釋完為何其他簡單模型不合適之后(盡管很多計算機工具正在使用這些模型作為基礎),我們將具體說明文本作者和研究者從OHCO模型和軟件系統(tǒng)的組合中可得到的好處。文檔的內容對象有序層次結構表示是功能最強的描述性標記形式。

該模型有如下特征:
·該模型反映了語言學上的篇章結構;文本是語言對象,所以這個框架是合理的;
·許多已出版的文本暗含該結構——例如目錄形式表現(xiàn)出來的結構;
·版式手冊也依據(jù)內容對象描述排版規(guī)則——例如期刊可能會對如何格式化“引文塊”進行詳細說明,這意味著該類型的單元對作者和編輯來說,都是有意義的;
·可以通過指定圖書的部分或查詢元素的名稱,直接從OHCO模型中抽出很多相關的元素;
·如圖1展示的,使用該模型幫助兒童理解和創(chuàng)建文檔是自然而然的。


關于OHCO有效性的一個觀點是該模型不僅適應排版和印刷技術的變化,也適應于翻譯活動。盡管所有的文檔詞匯和大部分的句法結構都可能會在文檔翻譯成其他語言時發(fā)生改變,文檔的OHCO結構卻可能會原封不動。再拿前文的例子來看,其結構依舊如此:

2 其他模型

盡管OHCO模型有許多優(yōu)點,大多數(shù)計算機文本管理軟件卻使用了其他不太專業(yè)的模型。本節(jié)將介紹其他幾種文本模型:作為位圖的文本模型、作為字符流的文本模型、作為格式指令的文本模型、作為頁面布局的文本模型、作為內容對象流(非層次結構)的文本模型。

2.1 作為位圖的文本

想象一下,人們使用圖像掃描儀掃描一個文檔,可以得到該文檔的頁面圖像。雖然讀者可以閱讀圖像上的文字,就像閱讀手寫信件一樣,但圖像上并沒有可以被計算機識別的用來指明哪些字符將在頁面上展示的顯著標記。因此,用戶無法對文本中的詞匯進行搜索、修改或者重新定義其格式。

對于某些計算目的來說,位圖是理想的,例如為了古文書學及相關領域的使用而存儲和展示手稿復本。但是,沒有人會嘗試利用位圖對文字進行處理。檔案系統(tǒng)在存儲一些紙質文檔的復本時,常將每個頁面的圖像與一些文本或描述性文字相關聯(lián),由此實現(xiàn)文檔的索引、搜索等。

2.2 作為字符流的文本

這種方法常用于通過計算機網(wǎng)絡發(fā)送的文本文件。這種文本中僅有的結構性編碼是通過空格和回車實現(xiàn)的。由于文本字符都有清晰的編碼,所以位圖模型最明顯的缺點就被克服了。由空格和標點符號提供的最基本的標記使得一些文本單元,如詞匯和句子等都可以相當準確地定位。然而,文檔的本質內容和文檔結構遠比字符重要,但這些依舊無法處理,所以位圖模型面臨的這些難題還是沒有得到解決。除了可以搜索和修改詞匯外,用戶沒法做其他任何事。例如,只有清晰地展示出文檔結構后,才有可能讓電腦將一個在線文檔特定章節(jié)中所有引用諾思洛普·弗萊(Northrop Frye)的話做個列表。

2.3 作為格式指令的文本

相對于位圖模型和字符流模型來說,目前常見的字處理文件在格式化頁面制作上有了長足進步。字處理文件包含一系列字符和空格,還有少量排版處理指令。與以前的模型相比,該模型中的每個字母都有明確的表示。編輯程序可以定位單詞、刪除字符、進行全局替換以及其他常見的文字處理;此外還有附加功能可以使用,如自動拼寫檢查、詞典、索引等。

然而,由于缺少對作者感興趣的對象的控制,當前的模型還無法定位文本中的詩歌引文或方程式。該模型沒有明確指明文本的哪一部分是詩歌,哪一部分是方程式。雖然格式命令可能提供了一些線索,但它們并不可靠,原因如下:

·為了挑選出一種文本表現(xiàn)形式,必須要記住或重構一系列(可能很長)的格式化命令;
·在許多程序中,同樣的文本表現(xiàn)樣式可以通過不同的方式實現(xiàn),但這些文本表現(xiàn)樣式卻沒有唯一的識別特征;
·作者可能沒有使用相同的方式對給定類型的內容對象進行格式化處理,由此導致搜索時會漏掉一些內容;
·作者可能以相同的方式對多種類型的對象進行了格式化,由此導致從外觀上無法區(qū)分不同類型的對象。

就像計算機可以將我們從排序問題中解脫出來一樣,計算機同樣也應解放那些想系統(tǒng)地改變某類內容對象格式的排版工人們,但是計算機不能,因為缺乏必要的描述性信息。信息的表現(xiàn)——格式化信息并不是問題的關鍵:它只與特定的設計風格、特定的文本處理程序以及特定的輸出設備相關。

2.4 作為頁面布局的文本

這種文檔表示方法的最好代表也許是Post Script TM,其結構是分層的,與常見的論文處理方法類似,故被廣泛使用。一本書可以分為若干頁,一個頁面又可以分為頁眉、正文區(qū)(可能包含多欄、內嵌圖片等)、可有可無的腳注和頁腳。然而,即使是這種模式也不能滿足作者和學者的文本操作需求。怎么才能找到方程、詩歌引文、詩句等類似內容?該問題與指令格式化模型面臨的問題是一樣的。頁面布局模型有助于描述文本在頁面上的位置,但不容易轉換以滿足其他用途。正如我們下面將要看到的,OHCO模型可以很容易地映射到其他模型。

2.5 作為內容對象流(非層次結構)的文本

該模型與OHCO模型的不同僅僅在于內容對象(由描述性標記標示)按貫序排列而非層級結構。任何單個文本片段只能是一個對象的部分,因此更高層次的內容對象,如章和節(jié)就無法直接展示。目前,許多文字處理軟件都在使用該模型,例如,麥金塔電腦版的Word軟件允許將特定類型的內容對象定義為“樣式”(styles)??上У氖牵@些樣式不能適用于段落以外的對象:無法定義那些具有層次關系的更小或更大的對象(如參考書目的子部分,還有像章節(jié)這樣的高層單元)。微軟的DOS系統(tǒng)也支持一定程度的字符樣式,但還很不足,有待改進。

在某種程度上,分層標記是必須的,因為文本內容本身已經(jīng)自然而然地描述了大多數(shù)的文本結構,所以流模型主要用于處理一些特定的結構,如參考文獻、腳注、大綱視圖。非層次性標記會導致確定的結構模糊不清。舉個簡單的例子,沒有“列表”標示的一堆列表條目,沒有“章節(jié)”標示的一堆章節(jié)標題。顯示樣式或格式化程序都被設置成隱形的,所以它們無法準確地操作更大的單元。例如下面展示的,盡管存在“l(fā)istheader”標簽,仍然不清楚后面的對象序列到底是一個接另一個形式的兩個列表,還是只有一個列表,而把另一個列表當做第三個條目嵌入:

在很大程度上,因為這些模棱兩可的存在,導致非層級標記系統(tǒng)不夠實用。由于格式化和其他文本操作不適用于結構環(huán)境,結果導致特定的“嵌入性列表項”“嵌有引用的段落”“連續(xù)性段落”等類似標簽激增。在層級系統(tǒng)中,標簽的數(shù)量可以大大壓縮,但功能不會丟失。不支持層級結構的系統(tǒng),其功能和界面設計上都非常有限;項目越大,這樣的局限帶來的麻煩就越多。

3 SGML:編寫OHCO的標準

SGML(Standard Generalized Markup Language)是國際標準化組織(ISO)的“標準化通用標記語言”。它定義了一個強大的語言,借助簡單的字符流文件來描述和編制任意復雜的層級結構文檔。它沒有指定一套特定的內容對象類型或“標簽”,而是提供了一種標簽及其關系使用法則。對于有固定形式的文檔,如字典和參考文獻,SGML可以幫助其建立一致性結構。對于結構更加松散的文檔,如文學文本,文檔結構的精確描述可以用于文檔分析。從這個意義上講,SGML之于學者的幫助大于其對作者的幫助。

SGML(Standard Generalized Markup Language)根據(jù)文檔的OHCO結構來定義文檔:它不直接指定如何格式化或處理文檔,而是通過內容對象助記名來描述文檔的層級結構。因此,它并不關心文件應該被視為數(shù)據(jù)庫、文字處理文件,還是其他東西。另外,需要特別指出的是,這種獨立性并不妨礙SGML應用程序能夠根據(jù)用戶的期望任意地顯示數(shù)據(jù)。許多軟件都提供了多種工具來設定任意內容對象類型的表現(xiàn)形式,并在寫作和編輯中以“所見即所得”的方式顯示這些內容。

美國出版商協(xié)會(1988)曾經(jīng)為了組織成員標記擬出版文件開發(fā)過一套SGML“標簽”(內容對象描述符)。雖然它還不能滿足學術目的(部分原因在于有些標記,如詩歌所需的標記還是空白),但是它畢竟提供了一個有效的設計文檔結構的例子。芝加哥大學出版社(1988)也推薦了一個非常類似的標簽集。

文本編碼組織(Text Encoding Initiative,TEI)是一個得到學術界廣泛支持的國際性協(xié)會,它正在開發(fā)多種滿足學術和商業(yè)廣泛性目標的文本編碼指南。TEI也是一個歐美聯(lián)合科研項目,囊括了全球的學者。雖然還沒有完工,但TEI已經(jīng)決心使用SGML作為基本的文本描述語言。人們期望TEI包含一些標準用于表示那些常見的興趣單元,以及多種文檔類型定義(Document Type Definition,DTD)用于各種標準化的文檔,還有明確定義如何根據(jù)新內容對象所需的標識來擴展自身。

3.1 基于OHCO模型的文本處理優(yōu)點

該章節(jié)提出了一些使用OHCO模型識別文檔邏輯對象的文本處理系統(tǒng)的優(yōu)點。這些優(yōu)點分為三方面:創(chuàng)作輔助、生產(chǎn)輔助、簡化數(shù)據(jù)的再利用。這三個分類基本上是按照文獻出版生命周期提出的,并作了擴展。

3.2 對于創(chuàng)作的好處

OHCO模型簡化了創(chuàng)作過程。格式方面的考慮使得作者在創(chuàng)作文本時,無需專門記住必要的格式規(guī)定和格式化命令,取而代之的是作者只需從菜單中選擇一個名字來確認每個文本元素。該模型允許作者以適當?shù)纳矸菰谀硞€抽象層面上處理文檔,而確定到底是加重標題還是使標題居中以前則是印刷工人考慮的事。

OHCO模型支持不同的文檔視圖。最近,大綱已經(jīng)成為文本處理程序的標配,這不過是理想的文本模型帶來的初步結果。文檔的各級大綱視圖僅需通過隱藏特定級別上的內容即可生成,例如頂級大綱視圖只保留一級標題而隱藏其他內容。多個文檔特定部分的復雜的有選擇的展示也可以借助文檔的邏輯組成輕松地實現(xiàn)。

不幸的是,一般大綱視圖只考慮有限范圍內的元素。在最低層級,所有內容都是無差別的文本元素。例如,微軟的Word軟件的大綱視圖采用的是一種非層級的文本模型。由于這種表現(xiàn)的限制,用戶一般不能使用其大綱視圖單獨顯示詩歌引文或者引文塊以及加重的元素。這種令人遺憾的局限源于將“標題”作為一個特例而不是一個特定的層級對象類型組,而這正好對于生成選擇性視圖很有用。

OHCO模型支持很多寫作工具。由于OHCO格式的編輯程序可以按照組件形式靈活地處理文檔,所以用戶可以很容易得到有用的和復雜的編輯工具。

因為有精確的內容層級描述,所以編輯軟件,尤其是以SGML為基礎的軟件對文檔結構較為敏感。這類軟件可以提供包含所有所需對象的合適的大綱視圖,并能提示作者所有上下文所需的或禁止的對象,并自動地重新編號或調整文檔組件。例如,Softquad Author/Editor TM(Author/Editor,1989)以圖標的形式顯示標簽,并允許用戶從菜單中選擇標簽來防止出現(xiàn)某些錯誤,該菜單只列出適用于當前上下文的所有標簽。盡管很多編輯器都提供這種功能的簡化版,但文本模型的不足還是會限制這些編輯器的有效性。例如,微軟的Word可以給段落重新編號,但由于其文本模型是非層級結構的,它就不能區(qū)分列表項和嵌入在列表項中的段落。

如果注釋(如旁注、腳注、書目的交叉引用)可以被標注,那么計算機就可以在文本與書目數(shù)據(jù)庫、個人筆跡等內容間建立直接的聯(lián)系。通過記錄這些基本的文本組件的結構,就可以更加有效地利用它們。早期的超文本系統(tǒng)FRESS除支持OHCO文本模型的部分外,還有獨立的注釋,這些注釋可以由一些類似于數(shù)據(jù)庫的功能進行操作(見Prusky,1978)。BibTeX針對參考書目也提供了類似的功能。

OHCO模型促進了協(xié)同工作。由于OHCO模型并不針對特定的格式化程序或工具來描述文本,所以使得文檔便于遷移傳輸。該技術不僅可以幫助個人在自己的機器上編寫和打印文檔,也可以幫助多個作者在一個大型項目中協(xié)同處理文檔。另外,因為它允許將格式化處理延遲實施,并且作者也能夠基于一個共同的表現(xiàn)形式構建自己喜歡的一套文檔視圖,而不需要符合其他人的作品樣式,或者在非內容問題上浪費時間。(OHCO結構的SGML實現(xiàn)表現(xiàn)出比純文本文檔結構更多的優(yōu)勢,且沒有像大多數(shù)文字處理器一樣使用隱秘的二進制,這解決了文件傳輸中的很多常見問題。)

3.3 生產(chǎn)方面的好處

格式化的一般性說明:運用OHCO模型只需要確定文檔的元素,部分或所有的最終格式方面的考慮都可以延遲處理。這帶來的特別好處是能夠簡單地使用通用格式定義或“樣式表”按照預定義的樣式對文檔進行格式化處理。隨著SGML的普及,這些定義正在適配于很多出版商獨特的自有風格。

格式的一致性:該模型特別展示了內容對象類型而不是詳細的文本片段,基于OHCO的格式化程序可以在整個文檔中實現(xiàn)格式的一致性。現(xiàn)有的文字處理器的風格樣式表機制可以實現(xiàn)這一點,但這執(zhí)行起來卻很困難,因為它們允許甚至鼓勵“差異性”,但卻無法發(fā)現(xiàn)或刪除這些差異性。一般來說,如果一個元素需要特殊的格式化那是因為該元素的確是一個特別的樣式,那就最好趕快定義一個適當?shù)臉邮矫Q。

電子手稿:由于與特定類型的內容對象相關聯(lián)的格式是獨立于對象本身的,所以OHCO模型允許在任何時間進行簡單的、全局的格式調整。人們可以根據(jù)特殊的印刷風格需要隨時調用為出版商開發(fā)出的各種樣式表。這個操作并不需要修改文本自身,從而消除了引發(fā)新的錯誤的機會和重復打樣的需要。

同樣,專業(yè)的印刷工可以修改格式,而無需擔心原始文本元素的類型和功能出現(xiàn)差錯。想象一個哲學或數(shù)學文本,包含了許多定義和推論,并帶有標記。如果印刷工人進行版面布局,并把這兩類對象區(qū)別印刷,即使二者在作者個人的樣式表中有相同的外觀,操作起來都是小菜一碟。把最開始格式不同的對象處理成最后一樣的樣式同樣如此。實際上,如果不是一開始就有差別,轉換也不會那么容易完成。人們必須不停地檢查文本,以判定每個元素到底是定義還是推論,這個過程反而很容易出錯。

在文本文件之外還有輸出設備的支持:文本文件本身是獨立于輸出設備的,只有它們的處理過程是輸出設備敏感的。描述性標記模型,如OHCO模型有利于從電子手稿直接生成版式文檔,這在時間、成本和準確性上的優(yōu)勢非常明顯。

OHCO模型在印刷方面也有優(yōu)點。即使打印機只有有限的字符集、字體也沒有關系,文本文件在打印之前并不需要編輯。文檔印刷程序可以盡量為每個元素生成最好的外觀,而這也不影響以后更加復雜的利用。
3.4 將文本轉換成數(shù)據(jù)庫

數(shù)據(jù)完整性:上面所提到的功能使得不用編輯文本本身,就可以實現(xiàn)文本格式的變換、排版、在文本處理系統(tǒng)之間進行交換,這樣可以避免破壞原始數(shù)據(jù)。帶有很多描述性標記的文件也很容易轉入其他處理系統(tǒng),因為它們是系統(tǒng)相關的但又獨立于應用程序。當用OHCO模型描述一個文本時,它就包含了所有的重要信息,其他類型的軟件可以閱讀其標簽來理解數(shù)據(jù)。

信息檢索功能:OHCO模型將文檔與相關文件視為可系統(tǒng)處理的包含各種文本元素的數(shù)據(jù)庫。這不僅有利于信息檢索,如不同觀點的產(chǎn)生,而且有助于產(chǎn)生各種各樣的“增值”型數(shù)據(jù)檢索功能。

例如,在文本庫中進行全文檢索時可以指定結構性檢索條件。如學者可能希望查找一些哲學定義,在這些定義的詞匯串中含有定義這樣的字眼;或者文獻學家希望在辭典中查找所有來源于法語的有前綴“in-”的詞。OHCO模型還允許對相似性檢索設置特定的結構性界限范圍。這意味著用戶可以尋找所有標題中包含單詞“愛”和“死亡”的章節(jié)。以前做這樣的查詢時,常常是指定一個字符串進行模糊搜索,然后再進行手工篩選結果。

特殊處理:許多文本都包括特殊的元素,例如含有特殊符號的公式、韻律信息、外語、圖形,以及其他非文本性數(shù)據(jù)。此類信息可用專門的軟件打上標記,并進行處理。例如,創(chuàng)建、驗證或評估公式,顯示圖形等。

因為OHCO模型提供了一種可以把文本分解成更小的片段進行展示的方法,它還可以用于整合各種不同類型的數(shù)據(jù)或媒體成為“復合文檔”。當前,很多處理多媒體或復合文檔的嘗試都是基于某種形式的層級內容模型的。反映文本層級結構的標記也可以用于顯示和在譯文之間建立連接。例如,圣經(jīng)研究工具CD WordTM可以同步顯示希臘文的新約、英文翻譯以及一節(jié)一節(jié)的注釋(DeRose,1989)。

由于一個學科的重要性文本單元決定了用于編碼的最適合的標簽,所以每個學科的特殊的復雜性可以直觀地通過描述性標記來處理。精心設計的標記框架則能夠促進更好地重用數(shù)據(jù)。

4 OHCO在當下的應用

4.1 基于OHCO的文本處理可能會被大眾接受嗎?

盡管自20世紀60年代以來,研究人員就在推薦使用結構化的和內容導向的文本處理程序,1980年代的電腦文字處理軟件卻明顯忽略了OHCO模型。這些程序的設計師更重視他們熟悉的系統(tǒng),這些系統(tǒng)也有點像打字機,視覺上較為吸引人,但是,現(xiàn)在已有明確的跡象表明基于OHCO的文本處理程序將很快進入大眾文本處理市場。

首先,用戶要求專業(yè)的計算保障,包括可移植性、兼容性、信息檢索、成套的輔助工具、從電子手稿直接出版、在應用程序間共享數(shù)據(jù),還有其他許多最先進的電腦文字處理軟件都無法滿足的要求,這些要求總是以令人意想不到的方式出現(xiàn)。

最引人注目的變化是SGML的地位得到大幅度提升,SGML成為描述性標記系統(tǒng)的國際標準以及文本編碼數(shù)據(jù)標準。支持SGML的組織包括國際標準化組織(International Organization for Standardization)、美國國家標準學會(American National Standards Institute)、美國出版協(xié)會(American Association of Publishers)、圖像通信協(xié)會(Graphics Communications Association)、歐洲專利局(European Patent Office)、歐洲共同體委員會(Commission of European Communities)等。SGML由美國出版協(xié)會發(fā)布,也受到美國圖書館協(xié)會(American Library Association)、美國國會圖書館(Library of Congress)、醫(yī)學圖書館協(xié)會(Medical Libraries Association)、現(xiàn)代語言協(xié)會(Modern Languages Association)、電氣和電子工程師協(xié)會(Insitude of Electrical and Engineers)、聯(lián)機計算機圖書館中心(Online Computer Library Center)、大學微縮膠卷聯(lián)盟(University Microfilms International),以及其他專業(yè)和產(chǎn)業(yè)組織的支持。

最重要的是,SGML作為一個“聯(lián)邦信息處理標準”(FIPS152)已經(jīng)被一些政府辦公室,包括美國國防部在大型出版項目上的采納。這個規(guī)定可能會對編輯和字處理軟件的發(fā)展產(chǎn)生重大影響,這些軟件主要用于國防承包商開發(fā)技術文獻。最終,這個規(guī)定也將會影響一般的高端文本處理市場。

最后,擁有強大處理器和圖形用戶界面的新型微機,目前已經(jīng)可以支持基于OHCO的文本處理軟件,同時擁有所見即所得式的字處理程序的外觀和感覺。這是創(chuàng)造流行的基于OHCO的文本處理器的最后障礙。

4.2 現(xiàn)在有哪些產(chǎn)品?

基于OHCO的文本處理開辟了在Scribe和IBM(and Waterloo)Script/GML的大型機上進行批處理的先機。目前,相關軟件仍然可用,并且擁有基于OHCO的文本處理的大部分優(yōu)點。但是,如果作者們要實現(xiàn)文本結構化還必須使用通用編輯器向文本中輸入一些描述性標記標簽并設置一些特殊的分隔符。現(xiàn)在還沒有很多專業(yè)的編輯器來簡化在電腦上打標和格式化處理工作。因此,新的所見即所得式的文字處理器便于新用戶上手;Scribe和GML的優(yōu)點只在那些大型復雜文檔上體現(xiàn)得比較明顯。

SoftQuad是一個運行在蘋果麥金塔電腦上的基于SGML的編輯器。它看上去和麥金塔電腦上其他的所見即所得式的文字處理程序沒區(qū)別。SoftQuad能驗證文本的OHCO結構,提供了可選擇標記的菜單,并能和排版軟件對接。但是該編輯器的基礎版不是一個全功能的文字處理器,它缺少一些細節(jié)功能,如多欄、腳注還有復雜的頁面布局功能。事實上,SoftQuad強調它本身是一個給作者和編輯者的工具,用于編寫文檔,而不是給設計師和排版人員進行頁面設計和印刷的工具。SoftQuad所提供的格式化功能主要是讓作者創(chuàng)建一個自然的和視覺上舒適的編輯環(huán)境,讓標題看起來像標題,詩歌看起來像詩歌。SoftQuad有力地證明了基于OHCO的文本處理不需要像Scribe、Script/GML這樣的傳統(tǒng)而笨拙的批量格式化軟件。

Exoterica軟件提供了各種各樣的SGML操作工具,包括編輯器、解析器等。這些工具并不提供常見的文字處理界面以方便創(chuàng)作,但它們在處理SGML相關問題上相當專業(yè),在處理不規(guī)范輸入文件上表現(xiàn)也很出色。在很多設備上都可以使用這些工具。

Interleaf、Context還有很多其他文字處理、桌面出版廠商都急于支持SGML;它們有的將SGML視作一個導入/導出格式,有些則將其視為基礎性設計問題,不管怎樣,但都在很認真地對待SGML,因為SGML有廣泛的支持基礎,尤其是在大市場領域,如那些有超多文獻編制需求的行業(yè)。

5 OHCO在未來的應用

5.1 多層級結構

這里有一個問題我們并沒有討論,那就是很多文檔都有多個不相交的結構。例如,《圣經(jīng)》里至少有三個有用的層次結構:
·參照層次,包括圣約、圖書、章節(jié)、詩句;
·主題層次,包括章節(jié)、段落、句子;
·對于任意版本都有的版式層次,包括頁面、列、行(這可能對研究圣經(jīng)文本最沒有用)。

這樣的多重結構在任何標記系統(tǒng)中都很難表示。盡管SGML可以對多個不相交的層級結構進行編碼,但仍需要在編碼和顯示層面開發(fā)更好的表示方法。在某些情況下,多結構表示很重要,對OHCO模型進行統(tǒng)一的轉換也有很多優(yōu)勢,這是未來發(fā)展的基礎。

5.2 網(wǎng)絡和超文本

有些文本結構即使使用多個層級結構也不能完整描述,它們需要更加靈活的網(wǎng)絡結構。這種結構的典型例子就是交叉引用和超文本鏈接。然而,即使我們經(jīng)常在文本的各個部分建立交叉引用的錨點,它們依舊是由OHCO的部分元素獨立驅使的,所以為了支持這種新型專業(yè)技術,OHCO文本模型必須提供更多控制功能。

分層文本結構已經(jīng)被用于從現(xiàn)存文檔中自動構建超文本(Frisse,1987)。為了實施超文本系統(tǒng),需要將文本分割成一個個的區(qū)塊或“節(jié)點”。在那些有意義的、清晰的文本標記支持下,這一工作發(fā)展相當迅速。哈佛大學的珀爾修斯項目(PerseusProject)正在將SGML作為其文獻檔案的基本格式,用于構建一個與古希臘相關的多媒體超文本系統(tǒng)。

5.3 版本管理

另一個與電子文檔開發(fā)工具相關的問題是文本的版本管理。這一工作不僅出現(xiàn)在創(chuàng)作過程中的記錄修改環(huán)節(jié),也出現(xiàn)在古籍手稿的電子記錄修改環(huán)節(jié)。

SGML似乎提供了足夠的、可能稍顯粗糙的關于版本信息的編碼機制,但該領域鮮有進展。

事實上,OHCO模型本身已經(jīng)提供了簡化描述和跟蹤版本變化過程的必要信息。該模型通過章和節(jié)來直接表示對象,所以版本維護軟件可以顯示那些對作者或讀者有意義的版本差異。例如,文本層次模型允許讀者發(fā)現(xiàn)一本書的一章從一個地方移動到另一個地方,并跟蹤章中的任何復雜變化。人們可通過觀察版本的差異列表來獲得這些變化信息。如果缺乏描述文檔層次結構的信息,則無法自動提取這些變化。

6 總 結

“讓我來編寫整個國家的數(shù)據(jù)結構,我不關心誰寫這些代碼?!?/em>
——W.理查德·里斯道(W.Richard Ristow.)

我們的觀點一點都不過甚其辭。文本是內容對象的有序層級架構;基于其他文本模型的軟件程序或計算實踐都不能滿足我們的科研與學術目標。那些忽略內容結構模型的軟件不僅會阻礙理想的“信息空間”的發(fā)展,還會延續(xù)格式不兼容帶來的成本問題,以及今天大學領域常見的應用程序只能一次性利用的難題。硬件或軟件的改進都無法彌補這種設計上的根本缺陷。理想的功能性要求文本的本質結構必須按照我們的方法來反映。如果不反映文本的這些特征,就沒有軟件能夠實現(xiàn)靈活性。

下一步需要做些什么呢?首先,我們必須繼續(xù)深化對文本結構的理解,并將其傳遞給我們的同事和大學。其次,我們必須把已知的文本結構融入計算技術與實踐中,并鼓勵其他人效仿。最后,我們必須堅持要求軟件開發(fā)人員設計符合我們要求的系統(tǒng)——將文本視為多個對象的一種結構而非字符編碼串。我們各個大學也不應該支持格式導向的文本處理器,就像我們避免錯誤的方法論、草率的研究活動以及糟糕的寫作語法一樣。

本文英文版原載于Journal of Computer in Higher Education1990年第1卷第2期,中文譯文已獲得該刊版權許可,載于《出版科學》2016年第3期。
歡迎個人裝載,公眾號轉載請聯(lián)系后臺




基金項目: 
本文系中組部“青年拔尖人才”支持計劃和教育部“新世紀優(yōu)秀人才”支持計劃資助成果之一。

作者及譯者:
 [美]史蒂芬·德羅斯,戴維德·杜蘭德,艾利·米洛納斯,艾蘭·瑞尼爾 著 
(praXis公司,布蘭戴斯大學,哈佛大學,布朗大學)
王曉光,凌宇翔,王俊芳  譯
(武漢大學信息管理學院)
出版科學
編輯部地址:武漢大學信息管理學院
在線投稿:www.cbkx.com
電話:(027)68753799  68754437
國際標準刊號:ISSN 1009-5853
國內統(tǒng)一刊號:CN 42-1618/G2

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多