譯注:本文是TinyXML 2.5.2版本Document的中文文檔,經原作者Lee Thomason同意由hansen翻譯,如有誤譯或者錯漏,歡迎指正。
版權:版權歸原作者所有,翻譯文檔版權歸本人hansen所有,轉載請注明出處。
原文:http://www./tinyxmldocs/index.html
2.5.2
TinyXML
TinyXML是一個簡單小巧,可以很容易集成到其它程序中的C++ XML解析器。
它能做些什么
簡單地說,TinyXML解析一個XML文檔并由此生成一個可讀可修改可保存的文檔對象模型(DOM)。
XML的意思是“可擴展標記語言“(eXtensible Markup Language)。它允許你創(chuàng)建你自己的文檔標記。在為瀏覽器標記文檔方面HTML做得很好,然而XML允許你定義任何文檔標記,比如可以為一個組織者應用程序定義一個描述“to do”列表的文檔。 XML擁有一個結構化并且方便的格式,所有為存儲應用程序數(shù)據(jù)而創(chuàng)建的隨機文件格式都可以用XML代替,而這一切只需要一個解析器。
最全面正確的說明可以在http://www./TR/2004/REC-xml-20040204/找到,但坦白地說,它很晦澀難懂。事實上我喜歡http:///xml/tutorial上關于XML的介紹。
有不同的方法可以訪問和與XML數(shù)據(jù)進行交互。TinyXML使用文檔對象模型(DOM),這意味著XML數(shù)據(jù)被解析成一個可被瀏覽和操作的C++對象,然后它可以被寫到磁盤或者另一個輸出流中。你也可以把C++對象構造成一個XML文檔然后把它寫到磁盤或者另一個輸出流中。
TinyXML被設計得容易快速上手。它只有兩個頭文件和四個cpp文件。只需要把它們簡單地加到你的項目中就行了。有一個例子文件——xmltest.cpp來引導你該怎么做。
TinyXML以Zlib許可來發(fā)布,所以你可以在開源或者商業(yè)軟件中使用它。許可證更具體的描述在每個源代碼文件的頂部可以找到。
TinyXML在保證正確和恰當?shù)腦ML輸出的基礎上嘗試成為一個靈活的解析器。TinyXML可以在任何合理的C++適用系統(tǒng)上編譯。它不依賴于異?;蛘哌\行時類型信息,有沒有STL支持都可以編譯。TinyXML完全支持UTF-8編碼和前64k個字符實體(<i>譯注:如果你不明白這句譯文,可能你需要了解一下Unicode編碼</i>)。
它無法做些什么
TinyXML不解析不使用DTDs(文檔類型定義)或者XSLs(可擴展樣式表語言)。有其它解析器(到www.sourceforge.org搜索一下XML)具有更加全面的特性,但它們也就更大,需要花更長的時間來建立你的項目,有更陡的學習曲線,而且經常有一個更嚴格的許可協(xié)議。如果你是用于瀏覽器或者有更復雜的XML需要,那么TinyXML不適合你。
下面的DTD語法在TinyXML里是不做解析的:
<!DOCTYPE Archiv [
<!ELEMENT Comment (#PCDATA)>
]>
因為TinyXML把它看成是一個帶著非法嵌入!ELEMENT結點的!DOCTYPE結點。或許這在將來會得到支持。
指南
有耐性些,這是一份能很好地指導你怎么開始的指南,它(非常短小精悍)值得你花時間完整地讀上一遍。
代碼狀況
TinyXML是成熟且經過測試的代碼,非常健壯。如果你發(fā)現(xiàn)了漏洞,請?zhí)峤宦┒磮蟾娴絪ourcefore網(wǎng)站上 (www./projects/tinyxml)。 我們會盡快修正。
有些地方可以讓你得到提高,如果你對TinyXML的工作感興趣的話可以上sourceforge查找一下。
相關項目
你也許會覺得TinyXML很有用?。ê喗橛身椖刻峁?
- TinyXPath (http://tinyxpath.). TinyXPath是一個小巧的XPath語法譯碼器腳本,用C++寫成。
- TinyXML++ (http://code.google.com/p/ticpp/). TinyXML++是一個全新的TinyXML接口,使用了許多諸如模板,異常處理和更好的錯誤處理這些C++強項技術。
特性
使用STL
TinyXML可以被編譯成使用或不使用STL。如果使用STL,TinyXML會使用std::string類,而且完全支持std::istream,std::ostream,operator<<和operator>>。許多API方法都有 ‘const char*’和’const std::string&’兩個版本。
如果被編譯成不使用STL,則任何STL都不會被包含。所有string類都由TinyXML它自己實現(xiàn)。所有API方法都只提供’const char*’傳入?yún)?shù)。
使用運行時定義:
TIXML_USE_STL
來編譯成不同的版本。這可以作為參數(shù)傳給編譯器或者在“tinyxml.h”文件的第一行進行設置。
注意:如果在Linux上編譯測試代碼,設置環(huán)境變量TINYXML_USE_STL=YES/NO可以控制STL的編譯。而在Windows上,項目文件提供了STL和非STL兩種目標文件。在你的項目中,在tinyxml.h的第一行添加"#define TIXML_USE_STL"應該是最簡單的。
UTF-8
TinyXML支持UTF-8,所以可以處理任何語言的XML文件,而且TinyXML也支持“legacy模式”——一種在支持UTF-8之前使用的編碼方式,可能最好的解釋是“擴展的ascii”。
正常情況下,TinyXML會檢測出正確的編碼并使用它,然而,通過設置頭文件中的TIXML_DEFAULT_ENCODING值,TinyXML可以被強制成總是使用某一種編碼。
除非以下情況發(fā)生,否則TinyXML會默認使用Legacy模式:
- 如果文件或者數(shù)據(jù)流以非標準但普遍的"UTF-8引導字節(jié)" (0xef 0xbb 0xbf)開始,TinyXML會以UTF-8的方式來讀取它。
- 如果包含有encoding="UTF-8"的聲明被讀取,那么TinyXML會以UTF-8的方式來讀取它。
- 如果讀取到沒有指定編碼方式的聲明,那么TinyXML會以UTF-8的方式來讀取它。
- 如果包含有encoding=“其它編碼”的聲明被讀取,那么TinyXML會以Legacy模式來讀取它。在Legacy模式下,TinyXML會像以前那樣工作,雖然已經不是很清楚這種模式是如何工作的了,但舊的內容還得保持能夠運行。
- 除了上面提到的情況,TinyXML會默認運行在Legacy模式下。
如果編碼設置錯誤或者檢測到錯誤會發(fā)生什么事呢?TinyXML會嘗試跳過這些看似不正確的編碼,你可能會得到一些奇怪的結果或者亂碼,你可以強制TinyXML使用正確的編碼模式。
通過使用LoadFile( TIXML_ENCODING_LEGACY )或者LoadFile( filename, TIXML_ENCODING_LEGACY ), 你可以強制TinyXML使用Legacy模式。你也可以通過設置TIXML_DEFAULT_ENCODING = TIXML_ENCODING_LEGACY來強制一直使用Legacy模式。同樣的,你也可以通過相同的方法來強制設置成TIXML_ENCODING_UTF8。
對于使用英文XML的英語用戶來說,UTF-8跟low-ASCII是一樣的。你不需要知道UTF-8或者一點也不需要修改你的代碼。你可以把UTF-8當作是ASCII的超集。
UTF-8并不是一種雙字節(jié)格式,但它是一種標準的Unicode編碼!TinyXML當前不使用或者直接支持wchar,TCHAR,或者微軟的_UNICODE。"Unicode"這個術語被普遍地認為指的是UTF-16(一種unicode的寬字節(jié)編碼)是不適當?shù)?,這是混淆的來源。
對于“high-ascii”語言來說——幾乎所有非英語語言,只要XML被編碼成UTF-8, TinyXML就能夠處理。說起來可能有點微妙,比較舊的程序和操作系統(tǒng)趨向于使用“默認”或者“傳統(tǒng)”的編碼方式。許多應用程序(和幾乎所有現(xiàn)在的應用程序)都能夠輸出UTF-8,但是那些比較舊或者難處理的(或者干脆不能使用的)系統(tǒng)還是只能以默認編碼來輸出文本。
比如說,日本的系統(tǒng)傳統(tǒng)上使用SHIFT-JIS編碼,這種情況下TinyXML就無法讀取了。但是一個好的文本編輯器可以導入SHIFT-JIS的文本然后保存成UTF-8編碼格式的。
Skew.org link上關于轉換編碼的話題做得很好。
測試文件“utf8test.xml”包含了英文、西班牙文、俄文和簡體中文(希望它們都能夠被正確地轉化)。“utf8test.gif”文件是從IE上截取的XML文件快照。請注意如果你的系統(tǒng)上沒有正確的字體(簡體中文或者俄文),那么即使你正確地解析了也看不到與GIF文件上一樣的輸出。同時要注意在一個西方編碼的控制臺上(至少我的Windows機器是這樣),Print()或者printf()也無法正確地顯示這個文件,這不關TinyXML的事——這只是操作系統(tǒng)的問題。TinyXML沒有丟掉或者損壞數(shù)據(jù),只是控制臺無法顯示UTF-8而已。
實體
TinyXML認得預定義的特殊“字符實體”,即:
& &
< <
> >
" "
' ‘
這些在XML文檔讀取時都會被辨認出來,并會被轉化成等價的UTF-8字符。比如下面的XML文本:
Far & Away
從TiXmlText 對象查詢出來時會變成"Far & Away"這樣的值,而寫回XML流/文件時會以“&”的方式寫回。老版本的TinyXML“保留”了字符實體,而在新版本中它們會被轉化成字符串。
另外,所有字符都可以用它的Unicode編碼數(shù)字來指定, " "和" "都表示不可分的空格字符。
打印
TinyXML有幾種不同的方式來打印輸出,當然它們各有各的優(yōu)缺點。
- Print( FILE* ):輸出到一個標準C流中,包括所有的C文件和標準輸出。
- "相當漂亮的打印", 但你沒法控制打印選項。
- 輸出數(shù)據(jù)直接寫到FILE對象中,所以TinyXML代碼沒有內存負擔。
- 被Print()和SaveFile()調用。
- operator<<:輸出到一個c++流中。
- 與C++ iostreams集成在一起。
- 在"network printing"模式下輸出沒有換行符,這對于網(wǎng)絡傳輸和C++對象之間的XML交換有好處,但人很難閱讀。
- TiXmlPrinter:輸出到一個std::string或者內存緩沖區(qū)中。
- API還不是很簡練。
- 將來會增加打印選項。
- 在將來的版本中可能有些細微的變化,因為它會被改進和擴展。
流
設置了TIXML_USE_STL,TinyXML就能支持C++流(operator <<,>>)和C(FILE*)流。但它們之間有些差異你需要知道:
C風格輸出:
- 基于FILE*
- 用Print()和SaveFile()方法
生成具有很多空格的格式化過的輸出,這是為了盡可能讓人看得明白。它們非??欤夷軌蛉萑蘕ML文檔中的格式錯誤。例如一個XML文檔包含兩個根元素和兩個聲明仍然能被打印出來。
C風格輸入:
- 基于FILE*
- 用Parse()和LoadFile()方法
速度快,容錯性好。當你不需要C++流時就可以使用它。
C++風格輸出:
- 基于std::ostream
- operator<<
生成壓縮過的輸出,目的是為了便于網(wǎng)絡傳輸而不是為了可讀性。它可能有些慢(可能不會),這主要跟你系統(tǒng)上ostream類的實現(xiàn)有關。無法容忍格式錯誤的XML:此文檔只能包含一個根元素。另外根級別的元素無法以流形式輸出。
C++風格輸入:
- 基于std::istream
- operator>>
從流中讀取XML使其可用于網(wǎng)絡傳輸。通過些小技巧,它知道當XML文檔讀取完畢時,流后面的就一定是其它數(shù)據(jù)了。TinyXML總假定當它讀取到根結點后XML數(shù)據(jù)就結束了。換句話說,那些具有不止一個根元素的文檔是無法被正確讀取的。另外還要注意由于STL的實現(xiàn)和TinyXML的限制,operator>>會比Parse慢一些。
空格
對是保留還是壓縮空格這一問題人們還沒達成共識。舉個例子,假設‘_’代表一個空格,對于"Hello____world",HTML和某些XML解析器會解釋成"Hello_world",它們壓縮掉了一些空格。而有些XML解析器卻不會這樣,它們會保留空格,于是就是“Hello____world”(記住_表示一個空格)。其它的還建議__Hello___world__應該變成Hello___world 。
這是一個解決得不能讓我滿意的問題。TinyXML一開始就兩種方式都支持。調用TiXmlBase::SetCondenseWhiteSpace( bool )來設置你想要的結果,默認是壓縮掉多余的空格。
如果想要改變默認行為,你應該在解析任何XML數(shù)據(jù)之前調用TiXmlBase::SetCondenseWhiteSpace( bool ) ,而且我不建議設置之后再去改動它。
句柄
想要健壯地讀取一個XML文檔,檢查方法調用后的返回值是否為null是很重要的。一種安全的檢錯實現(xiàn)可能會產生像這樣的代碼:
TiXmlElement* root = document.FirstChildElement( "Document" );
if ( root )
{
TiXmlElement* element = root->FirstChildElement( "Element" );
if ( element )
{
TiXmlElement* child = element->FirstChildElement( "Child" );
if ( child )
{
TiXmlElement* child2 = child->NextSiblingElement( "Child" );
if ( child2 )
{
// Finally do something useful.
用句柄的話就不會這么冗長了,使用TiXmlHandle類,前面的代碼就會變成這樣:
TiXmlHandle docHandle( &document );
TiXmlElement* child2 = docHandle.FirstChild( "Document" ).FirstChild( "Element" ).Child( "Child", 1 ).ToElement();
if ( child2 )
{
// do something useful
這處理起來容易多了。 查閱TiXmlHandle可以得到更多的信息。
行列追蹤
對于某些應用程序來說,能夠追蹤節(jié)點和屬性在它們源文件中的原始位置是很重要的。另外,知道解析錯誤在源文件中的發(fā)生位置可以節(jié)省大量時間。
TinyXML能夠追蹤所有結點和屬性在文本文件中的行列原始位置。TiXmlBase::Row() 和 TiXmlBase::Column() 方法返回結點在源文件中的原始位置。正確的制表符號可以經由TiXmlDocument::SetTabSize() 來配置。
使用與安裝
編譯與運行xmltest:
提供了一個Linux Makefile和一個Windows Visual C++ .dsw 文件。只需要簡單地編譯和運行,它就會在你的磁盤上生成demotest.xml文件并在屏幕上輸出。它還嘗試用不同的方法遍歷DOM并打印出結點數(shù)。
那個Linux makefile很通用,可以運行在很多系統(tǒng)上——它目前已經在mingw和MacOSX上測試過。你不需要運行 ‘make depend’,因為那些依賴關系已經硬編碼在文件里了。
用于VC6的Windows項目文件
- tinyxml: tinyxml 庫,非STL
- tinyxmlSTL: tinyxml 庫,STL
- tinyXmlTest: 用于測試的應用程序,非STL
- tinyXmlTestSTL: 用于測試的應用程序,STL
Makefile
在makefile的頂部你可以設置:
PROFILE,DEBUG,和TINYXML_USE_STL。makefile里有具體描述。
在tinyxml目錄輸入“make clean”然后“make”,就可以生成可執(zhí)行的“xmltest”文件。
在某一應用程序中使用:
把tinyxml.cpp,tinyxml.h, tinyxmlerror.cpp, tinyxmlparser.cpp, tinystr.cpp, 和 tinystr.h 添加到你的項目和makefile中。就這么簡單,它可以在任何合理的C++適用系統(tǒng)上編譯。不需要為TinyXML打開異?;蛘哌\行時類型信息支持。
TinyXML怎么工作
舉個例子可能是最好的辦法,理解一下:
<?xml version="1.0" standalone=no>
<!– Our to do list data –>
<ToDo>
<Item priority="1"> Go to the <bold>Toy store!</bold></Item>
<Item priority="2"> Do bills</Item>
</ToDo>
它稱不上是一個To Do列表,但它已經足夠了。像下面這樣讀取并解析這個文件(叫“demo.xml”)你就能創(chuàng)建一個文檔:
TiXmlDocument doc( "demo.xml" );
doc.LoadFile();
現(xiàn)在它準備好了,讓我們看看其中的某些行和它們怎么與DOM聯(lián)系起來。
<?xml version="1.0" standalone=no>
第一行是一個聲明,它會轉化成TiXmlDeclaration 類,同時也是文檔結點的第一個子結點。
這是TinyXML唯一能夠解析的指令/特殊標簽。一般來說指令標簽會保存在TiXmlUnknown 以保證在它保存回磁盤時不會丟失這些命令。
<!– Our to do list data –>
這是一個注釋,會成為一個TiXmlComment對象。
<ToDo>
"ToDo"標簽定義了一個TiXmlElement 對象。它沒有任何屬性,但包含另外的兩個元素。
<Item priority="1">
生成另一個TiXmlElement對象,它是“ToDo”元素的子結點。此元素有一個名為“priority”和值為“1”的屬性。
Go to the
TiXmlText ,這是一個葉子結點,它不能再包含其它結點,是"Item" TiXmlElement的子結點。
<bold>
另一個TiXmlElement, 這也是“Item”元素的子結點。
等等
最后,看看整個對象樹:
TiXmlDocument "demo.xml"
TiXmlDeclaration "version=’1.0′" "standalone=no"
TiXmlComment " Our to do list data"
TiXmlElement "ToDo"
TiXmlElement "Item" Attribtutes: priority = 1
TiXmlText "Go to the "
TiXmlElement "bold"
TiXmlText "Toy store!"
TiXmlElement "Item" Attributes: priority=2
TiXmlText "Do bills"
文檔
本文檔由Doxygen使用‘dox’配置文件生成。
許可證
TinyXML基于zlib許可證來發(fā)布:
本軟件按“現(xiàn)狀”提供(即現(xiàn)在你看到的樣子),不做任何明確或隱晦的保證。由使用此軟件所引起的任何損失都決不可能由作者承擔。
只要遵循下面的限制,就允許任何人把這軟件用于任何目的,包括商業(yè)軟件,也允許修改它并自由地重新發(fā)布:
1. 決不能虛報軟件的來源;你決不能聲稱是你是軟件的第一作者。如果你在某個產品中使用了這個軟件,那么在產品文檔中加入一個致謝辭我們會很感激,但這并非必要。
2. 修改了源版本就應該清楚地標記出來,決不能虛報說這是原始軟件。
3. 本通告不能從源發(fā)布版本中移除或做修改。
參考書目
萬維網(wǎng)聯(lián)盟是定制XML的權威標準機構,它的網(wǎng)頁上有大量的信息。
權威指南:http://www./TR/2004/REC-xml-20040204/
我還要推薦由OReilly出版由Robert Eckstein撰寫的"XML Pocket Reference"……這本書囊括了入門所需要的一切。
捐助者,聯(lián)系人,還有簡史
非常感謝給我們建議,漏洞報告,意見和鼓勵的所有人。它們很有用,并且使得這個項目變得有趣。特別感謝那些捐助者,是他們讓這個網(wǎng)站頁面生機勃勃。
有很多人發(fā)來漏洞報告和意見,與其在這里一一列出來不如我們試著把它們寫到“changes.txt”文件中加以贊揚。
TinyXML的原作者是Lee Thomason(文檔中還經常出現(xiàn)“我”這個詞) 。在Yves Berquin,Andrew Ellerton,和tinyXml社區(qū)的幫助下,Lee查閱修改和發(fā)布新版本。
我們會很感激你的建議,還有我們想知道你是否在使用TinyXML。希望你喜歡它并覺得它很有用。請郵寄問題,評論,漏洞報告給我們,或者你也可登錄網(wǎng)站與我們取得聯(lián)系:
Lee Thomason, Yves Berquin, Andrew Ellerton