作者簡(jiǎn)介:孔祥卿,女,1966年出生于河北辛集,文學(xué)博士,現(xiàn)為中國(guó)文字學(xué)會(huì)會(huì)員,中國(guó)民族語(yǔ)言學(xué)會(huì)會(huì)員,中國(guó)民族古文字研究會(huì)會(huì)員,南開(kāi)大學(xué)教授。 史建偉, 男, 1966年出生,河北省樂(lè)亭縣人。南開(kāi)大學(xué)漢語(yǔ)言文化學(xué)院副教授。 孫易,女,祖籍山東,1976年8月生于山西高平。現(xiàn)為中國(guó)語(yǔ)言文學(xué)系副教授、中國(guó)民族古文字研究會(huì)會(huì)員。 一、字頻 文字是輔助性的交際工具,在交際過(guò)程中,有的字用得多一些,有的字用得少一些,呈現(xiàn)出一定的統(tǒng)計(jì)規(guī)律性。一個(gè)字在一定范圍的語(yǔ)料中出現(xiàn)的次數(shù),稱為字的頻度,即字頻。字頻統(tǒng)計(jì)對(duì)漢字研究和漢字應(yīng)用都有重要意義。 漢字字頻的統(tǒng)計(jì)工作從20世紀(jì)20年代開(kāi)始,陳鶴琴的《語(yǔ)體文應(yīng)用字匯》是最早的漢字字頻統(tǒng)計(jì)研究。書中使用頻度最高的前二十個(gè)字是:的、不、一、了、是、我、上、他、有、人、全、這、來(lái)、小、在、們、說(shuō)、子、可、道。開(kāi)始的統(tǒng)計(jì)是手工進(jìn)行,目的是為識(shí)字教學(xué),所用的語(yǔ)料范圍也較小。經(jīng)過(guò)80多年的發(fā)展,字頻研究取得了長(zhǎng)足的進(jìn)步,統(tǒng)計(jì)的目的從識(shí)字教學(xué)擴(kuò)展到信息處理;所用的語(yǔ)料從幾十萬(wàn)字增加到兩千萬(wàn)字;統(tǒng)計(jì)的項(xiàng)目從單純的字頻發(fā)展到多種數(shù)據(jù);所用的手段從手工發(fā)展到計(jì)算機(jī)。 1977年,新華印刷廠編成《漢字頻度表》,選用語(yǔ)料2160多萬(wàn)字,用手工統(tǒng)計(jì),得到不同的字種數(shù)6374個(gè),按頻度由高到低排列成字表,共分《政治理論頻度表》、《新聞通訊頻度表》、《科學(xué)技術(shù)頻度表》、《文學(xué)藝術(shù)頻度表》、《綜合頻度表》五個(gè)表。每個(gè)表都分編號(hào)、單字、出現(xiàn)次數(shù)、累計(jì)數(shù)、累計(jì)數(shù)百分比五個(gè)欄目。這項(xiàng)研究成果成為《信息交換用漢字編碼字符集·基本集》的主要依據(jù)。后來(lái),1984年,貝貴琴、張學(xué)濤在原統(tǒng)計(jì)數(shù)據(jù)的基礎(chǔ)上,用計(jì)算機(jī)重新計(jì)算,編成《漢字頻度統(tǒng)計(jì)》,其中的《漢字頻度統(tǒng)計(jì)表》,把漢字分為五級(jí),統(tǒng)計(jì)如下: 1979至1985年,北京語(yǔ)言學(xué)院編成《現(xiàn)代漢語(yǔ)頻率辭典》,這本辭典用人工和計(jì)算機(jī)相結(jié)合的方法,從詞語(yǔ)應(yīng)用的角度進(jìn)行計(jì)量研究,同時(shí)兼顧漢字字頻和組詞能力的統(tǒng)計(jì)與分析。所用語(yǔ)料180萬(wàn)字。其中的《漢字頻度表》,共有字種4574個(gè),分級(jí)統(tǒng)計(jì)如下: 級(jí)別 序號(hào) 累計(jì)頻率% Ⅰ 1~100 47.33584 Ⅱ 101~1000 91.36559 Ⅲ 1001~2418 99.00023 Ⅳ 2419~4574 100.00000 前十個(gè)高頻字依次是:的、一、了、是、不、我、在、有、人、這。 1981年,北京航空學(xué)院承擔(dān)了文字改革委員會(huì)和國(guó)家標(biāo)準(zhǔn)局下達(dá)的現(xiàn)代漢語(yǔ)字頻統(tǒng)計(jì)任務(wù),利用計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)。《最常用的漢字是哪些?——3000高頻度漢字表》(文字改革出版社,1986)就是這次統(tǒng)計(jì)的部分成果,全部成果匯編成《現(xiàn)代漢語(yǔ)字頻統(tǒng)計(jì)表》(語(yǔ)文出版社,1992)。統(tǒng)計(jì)的語(yǔ)料總字?jǐn)?shù)為1108萬(wàn)字,得到字種7754個(gè)。統(tǒng)計(jì)得出13個(gè)字頻統(tǒng)計(jì)表: 1.社會(huì)科學(xué)·自然科學(xué)綜合漢字頻度表,收字1~7754 2.社會(huì)科學(xué)綜合漢字頻度表,收字1~7373 3.自然科學(xué)綜合漢字頻度表,收字1~6009 4.新聞報(bào)道類漢字頻度表,收字1~4913 5.歷史哲學(xué)類漢字頻度表,收字1~5402 6.文學(xué)藝術(shù)類漢字頻度表,收字1~6501 7.政治經(jīng)濟(jì)類漢字頻度表,收字1~4888 8.文體生活類漢字頻度表,收字1~4210 9.基礎(chǔ)知識(shí)類漢字頻度表,收字1~4426 10.農(nóng)林牧副漁類漢字頻度表,收字1~3688 11.重工業(yè)類漢字頻度表,收字1~3619 12.輕工業(yè)類漢字頻度表,收字1~4502 13.建筑運(yùn)輸類漢字頻度表,收字1~3010 由此看到,不同的學(xué)科用字的情況很不一致,統(tǒng)計(jì)選用語(yǔ)料的范圍非常重要,對(duì)統(tǒng)計(jì)的結(jié)果有很大影響。近些年,國(guó)內(nèi)有很多家單位建起了大型語(yǔ)料庫(kù),今后的統(tǒng)計(jì)工作必須有大型語(yǔ)料庫(kù)的支持,人工統(tǒng)計(jì)的時(shí)代已經(jīng)一去不復(fù)返了。 通過(guò)對(duì)字頻統(tǒng)計(jì)結(jié)果的分析,還得到了兩條規(guī)律: 1.漢字效用遞減率 1000常用字的覆蓋率已達(dá)90%以上,增加到3000字時(shí),覆蓋率已達(dá)99%以上,以后無(wú)論增加多少字,其增加的覆蓋率都只在1%。這個(gè)規(guī)律對(duì)于研制現(xiàn)代漢語(yǔ)常用字表和通用字表有指導(dǎo)意義。 2.常用字筆畫趨簡(jiǎn)率 根據(jù)統(tǒng)計(jì)結(jié)果,最常用的字,其平均筆畫較少,隨著常用程度的降低,其平均筆畫數(shù)成比例地增加。王鳳陽(yáng)從漢字歷史也得出這樣的結(jié)論:應(yīng)用頻率高的字一般地趨向簡(jiǎn)化。①這條規(guī)律對(duì)說(shuō)明漢字的發(fā)展演變,指導(dǎo)漢字的簡(jiǎn)化工作,有重要意義。 二、字量 漢字的字?jǐn)?shù)有多少?是個(gè)很難回答的問(wèn)題。雖然各種字典中收的漢字已達(dá)幾萬(wàn)字,但那是歷代積累下來(lái)的,不是實(shí)際用字的量,而且其中有很多是異體、別體?,F(xiàn)代漢語(yǔ)的用字究竟有多少,這是漢字定量研究的大課題。早在20世紀(jì)50年代,周有光就提出研制《現(xiàn)代漢語(yǔ)用字全表》的問(wèn)題,可是《全表》只能解決定量的問(wèn)題,還需要定形、定音、定序,合稱“四定”,目前,有關(guān)部門正在研制《規(guī)范漢字表》。在此之前,先研制出常用漢字和通用漢字。 1988年1月,國(guó)家語(yǔ)委和教委聯(lián)合發(fā)布《現(xiàn)代漢語(yǔ)常用字表》,共收常用字3500字,又分為一級(jí)常用字2500個(gè)和二級(jí)常用字1000個(gè)。經(jīng)過(guò)檢驗(yàn),一級(jí)常用字覆蓋率97.97%,二級(jí)常用字覆蓋率99.48%。 1988年3月,國(guó)家語(yǔ)委和新聞出版署聯(lián)合發(fā)布《現(xiàn)代漢語(yǔ)通用字表》,收現(xiàn)代漢語(yǔ)通用字7000字,包括《現(xiàn)代漢語(yǔ)常用字表》中的3500字。 區(qū)分通用字和罕用字、常用字的標(biāo)準(zhǔn)主要有四條: 1.字的頻度 2.字的分布面和使用度 3.字的構(gòu)詞能力和構(gòu)字能力 4.根據(jù)漢字的實(shí)際使用情況 基礎(chǔ)教育的用字研究、對(duì)外漢語(yǔ)教學(xué)的識(shí)字研究都是在此基礎(chǔ)上進(jìn)行的。張衛(wèi)國(guó)研究出《小學(xué)語(yǔ)文用字表》,包括字種3071個(gè);② 陳良璜統(tǒng)計(jì)出小學(xué)各年級(jí)課本的生字量,六個(gè)年級(jí)合計(jì)3091字。③ 1990到1991年,國(guó)家漢辦和北京語(yǔ)言學(xué)院聯(lián)合研制了《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》,其中《漢字等級(jí)表》收漢字2905個(gè),分為四級(jí):甲級(jí)字800個(gè),乙級(jí)字804個(gè),丙級(jí)字601個(gè),丁級(jí)字700個(gè)。其中有2485個(gè)字是《現(xiàn)代漢語(yǔ)常用字表》里的一級(jí)常用字。 此外還需要對(duì)專門用字進(jìn)行研究,比如人名用字的研究、地名川字的研究、化學(xué)用字的研究等,如果這些專門用字不加限制,也會(huì)大大增加漢字的總量。 三、字音 理想的漢字應(yīng)該是一字一音的,但是,漢字中有不少多音字,多音實(shí)際就是字無(wú)定音,需要根據(jù)上下文義來(lái)確定讀音。 據(jù)統(tǒng)計(jì),《新華字典》所收的8000多字中,多音字有828個(gè),包含1857個(gè)讀音。④ 《辭?!分惺盏亩嘁糇钟?641個(gè),其中一字二音的有2112個(gè),一字三音的有422個(gè),一字四音的有81個(gè),一字五音的有18個(gè),一字六音的有7個(gè),一字八音的有一個(gè),即“那”字。⑤ 《現(xiàn)代漢語(yǔ)詞典》收字11000左右,其中一字多音的大約1000個(gè)。⑥ 《現(xiàn)代漢語(yǔ)通用字表》收字7000個(gè),其中多音字625個(gè),占總字?jǐn)?shù)的8.9%;常用字和次常用字中多音字417個(gè),占多音字總字?jǐn)?shù)的67%,三分之二的多音字是常用字。⑦ 《漢字信息字典》收字7785個(gè),其中多音字747字,占9.595%,其中二音字671個(gè),占8.619%;三音字69個(gè),占0.886%;四音字5個(gè),占0.064%;五音字2個(gè),占0.026%。⑧ 以上的統(tǒng)計(jì)所用材料不同,結(jié)果當(dāng)然會(huì)有差異。大體上說(shuō),現(xiàn)代漢字里的多音字約占總字?jǐn)?shù)的十分之一。多音字的發(fā)展趨勢(shì)是單音化,呂叔湘說(shuō):“一字一讀是合乎文字功能的原則,因而也是深入人心的趨勢(shì)。因此只有少數(shù)幾個(gè)讀音都是常常應(yīng)用,勢(shì)均力敵,才能長(zhǎng)久并列,例如‘長(zhǎng)’由cháng和‘長(zhǎng)’zhǎng,‘樂(lè)’lè和‘樂(lè)’yuè。否則比較少用的讀音很容易被常用的讀音擠掉。”⑨ 雖然多音字不可能消滅,但是可以不斷地精簡(jiǎn)。我們的漢字整理規(guī)范工作應(yīng)該通盤考慮,比如,在整理異形詞、審定異讀詞時(shí),應(yīng)該以盡量減少多音字作為一個(gè)考慮的指標(biāo),漢字簡(jiǎn)化時(shí)的近音替代造成多音字的增加,就是考慮不周全的地方,今后應(yīng)該避免。 四、字序 字序就是字的排列順序。在文字的應(yīng)用中,字典、辭典的排檢都涉及到排序問(wèn)題。字母文字的字序(實(shí)際是詞序)由字母表的順序決定,非常簡(jiǎn)單,又統(tǒng)一。而漢字是語(yǔ)素文字,字具有形音義三個(gè)方面,其排序也就有不同的方法。 目前大型辭書的排序法主要是兩種:部首法和音序法。前者如《辭源》、《辭?!?、《漢語(yǔ)大字典》、《漢語(yǔ)大辭典》,后者如《現(xiàn)代漢語(yǔ)詞典》、《新華字典》。但是不管使用哪種排字法,往往都要配有兩三種檢字法,所以部首檢字法、音序檢字法、筆畫檢字法都是常用的檢字法。 (一)部首法存在的問(wèn)題 1.立部數(shù)量不統(tǒng)一 從東漢許慎創(chuàng)立540部首以后,歷代的字書對(duì)部首進(jìn)行了歸并,到明代梅膺祚的《字匯》,減少至214部,以后的字書在這個(gè)基礎(chǔ)上進(jìn)行調(diào)整?,F(xiàn)代的字書基本上都在200部左右,部首按筆畫數(shù)排列,筆畫相同的部首前后排列次序比較混亂。1983年制訂的《漢字統(tǒng)一部首表》(草案),確定201個(gè)部首,按畫數(shù)和起筆筆形順序排列,發(fā)布后,部首的立部和排序有望得到統(tǒng)一。 2.歸部原則不統(tǒng)一 主要是據(jù)義歸部和據(jù)形歸部?jī)煞N。傳統(tǒng)的字書主要是據(jù)義歸部。因?yàn)闈h字形旁表義的特點(diǎn),據(jù)義歸部實(shí)際是把字形和字義聯(lián)系起來(lái)的做法,對(duì)于幫助理解字義、理解字形的構(gòu)造都有好處。但是對(duì)于不認(rèn)識(shí)這個(gè)字的人來(lái)說(shuō),不便檢索。據(jù)形歸部對(duì)于檢索來(lái)說(shuō),確實(shí)方便一些,但是需要定出嚴(yán)格的條例。因?yàn)闈h字字形帶有很大的無(wú)序性,從形體入手,要找出一套嚴(yán)整、簡(jiǎn)易的部首規(guī)則來(lái),也是很不容易的。而且,有時(shí)只從形體入手歸部,又會(huì)和識(shí)字教學(xué)實(shí)踐相矛盾,比如若規(guī)定部首“從左不從右,從上不從下”,而有些偏旁習(xí)慣于放在右邊,如:刂、攵、頁(yè)、月(月)、阝(邑);有的偏旁習(xí)慣于放在下邊,如:皿、心。如果一定“從左不從右,從上不從下”,就破壞了這些字的系統(tǒng)性。 3.字頭下面多音詞的排序問(wèn)題 有的按雙字詞、三字詞、四字詞的順序排列,字?jǐn)?shù)相同的再按第二字、第三字的筆畫數(shù)由少到多排列;也有的不管是幾字詞,第二字相同的排在一起。 (二)音序法存在的問(wèn)題 1.同音字的先后順序 漢字的同音字很多,音序法無(wú)法解決同音字的先后順序問(wèn)題,必須結(jié)合別的排序方法,有的按筆畫多少排列,有的把聲符相同的字排在一起。 2.字頭下面多音詞的排序問(wèn)題 有的按音節(jié)多少排列,音節(jié)數(shù)相同的再按第二音節(jié)的音序排列;有的不分音節(jié),整個(gè)詞按音序排列。 這些排序的不一致都是需要研究的問(wèn)題。信息處理中字序的問(wèn)題就更重要了。因此,必須研究制訂統(tǒng)一的字序,使每一個(gè)漢字都能有一個(gè)唯一的位置。按筆畫和起筆筆形給漢字排序是比較客觀而又科學(xué)的,即便是在使用部首法排序和音序法時(shí)也要用筆畫筆形作為補(bǔ)充手段。但是先筆畫數(shù)后起筆筆形,還是先起筆筆形后筆畫數(shù),目前還不統(tǒng)一;幾個(gè)基本筆形的先后順序也不統(tǒng)一;筆畫數(shù)和起筆筆形都相同的字怎樣排序也還需要再進(jìn)行研究。 ①王鳳陽(yáng)《漢字學(xué)》,吉林文史出版社,1989年。 ②張衛(wèi)國(guó)《小學(xué)語(yǔ)文用字研究》,《教育研究》1983年5期。 ③陳良璜《對(duì)我國(guó)小學(xué)語(yǔ)文課本生字量的研究》,《教育研究》1990年9期。 ④李如龍《關(guān)于多音字的精簡(jiǎn)問(wèn)題》,《文字改革》1984年2期。 ⑤傅永和《漢字結(jié)構(gòu)及其構(gòu)成成分的分析和統(tǒng)計(jì)》,《中國(guó)語(yǔ)文》1985年4期。 ⑥張清常《漢語(yǔ)漢文的一字多音問(wèn)題》,《語(yǔ)言學(xué)論文集》136頁(yè),商務(wù)印書館,1993年。 ⑦龔嘉鎮(zhèn)《現(xiàn)行漢字形音關(guān)系研究》57頁(yè),湖北人民出版社,1995年。 ⑧《漢字信息字典》1086頁(yè),科學(xué)出版社,1988年。 ⑨呂叔湘《語(yǔ)文常談》31—32頁(yè),三聯(lián)書店,1980年。 ——摘自 孔祥卿,史建偉,孫易《漢字學(xué)通論》 購(gòu)買本書請(qǐng)點(diǎn)擊下方鏈接 漢典:zdic.net |
|