小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

大數(shù)據(jù)時代的古典文學(xué)研究

 三十七度情緒 2018-10-15

    編者按    

    對人文學(xué)者來說,作為工具的計算機,已從文獻檢索時代進入到數(shù)據(jù)分析時代。計算機不僅能幫助我們從海量文獻中快速檢索到所需的資料,還能以數(shù)據(jù)為基礎(chǔ)幫助我們發(fā)現(xiàn)問題和分析問題。隨著數(shù)字人文技術(shù)的發(fā)展,數(shù)據(jù)分析的技術(shù)和方法越來越有針對性和強效性,能清晰地揭示隱藏在文學(xué)史背后的作家與社會之間、作家與作家之間、文本與文本之間的直接與間接、顯性與隱性的多種關(guān)聯(lián),能以全知型的視角系統(tǒng)整體地還原和呈現(xiàn)文學(xué)史的立體景觀,改變傳統(tǒng)的思維方式和文學(xué)研究范式。

    目前的中國古代文學(xué)研究,在數(shù)據(jù)分析方面雖然已經(jīng)起步,但還沒有完全跟上數(shù)字人文的發(fā)展步伐,可用于統(tǒng)計分析的關(guān)系型文學(xué)數(shù)據(jù)庫建設(shè)還比較薄弱,適用于古代文學(xué)研究的分析工具、分析方法、分析模型還相當(dāng)有限。近些年學(xué)界和業(yè)界推出了相當(dāng)豐富的數(shù)字化的文獻資源庫,如《中國基本古籍庫》《中華經(jīng)典古籍庫》等,但主要用于檢索,還不是結(jié)構(gòu)化的能進行統(tǒng)計分析和再生知識的數(shù)據(jù)庫。運用數(shù)字人文的分析工具和技術(shù)方法來研究古代文學(xué),也取得了一定的實績,但還處在嘗試性階段,未成規(guī)模,影響不大。

    為推進數(shù)字人文技術(shù)在古代文學(xué)研究中的應(yīng)用與突破,本期約請清華大學(xué)中國古典文獻研究中心數(shù)字人文研究團隊的劉石、孫茂松、張力偉和劉京臣四位先生從不同的角度筆談他們的構(gòu)想和規(guī)劃。劉石、孫茂松先生構(gòu)建了古典文學(xué)研究的分析模型,劉京臣先生闡述了基于社會網(wǎng)絡(luò)分析的文本與人物研究的理路,既有理論的前瞻性,也有方法的可操作性;張力偉先生提出了建設(shè)“中國古典知識庫”(CCKB)的宏大構(gòu)想,令人期待!(王兆鵬)

    20世紀(jì)60年代,電腦就被西方國家運用于人文學(xué)科研究,稱為“人文計算”。美、英、法、德等國利用大數(shù)據(jù)技術(shù)研究文學(xué)開展得早、影響大,相繼成立了國家級項目組或研究中心,致力于莎士比亞戲劇、法國中世紀(jì)詩歌等多語種文學(xué)經(jīng)典的內(nèi)容分析,產(chǎn)生了一批引人注目的理論著述與應(yīng)用成果。

    進入新世紀(jì),一些研究機構(gòu)及企業(yè)開始對書籍進行大規(guī)模數(shù)據(jù)化。谷歌與哈佛大學(xué)共同研發(fā)的數(shù)據(jù)庫可對1600年至2000年間出版的500多萬冊書籍的單詞和短語的使用頻率進行統(tǒng)計,通過關(guān)鍵詞使用頻率的變化,可以嶄新的視角揭示500年來人類文化發(fā)展史的總體趨勢。伴隨人工智能技術(shù)的進步,機器的深度學(xué)習(xí)在文本分析方面展現(xiàn)了驚人效率。《布谷鳥的呼喚》原是《哈利·波特》的作者J. K. 羅琳于2013年匿名發(fā)表的小說。牛津大學(xué)的Peter Millican和杜肯大學(xué)的Patrick Juola運用法律語言學(xué)的分析方法對比分析,推測它很可能是羅琳的新作,最后,羅琳承認這部小說確出己手。

    國內(nèi)在20世紀(jì)80年代也出現(xiàn)了“人文計算應(yīng)用”的概念,一些學(xué)者開始致力于運用電腦技術(shù)研究人文課題。早期對古典文學(xué)尤其詩詞的研究多為計算機或統(tǒng)計專業(yè)的學(xué)者。廈門大學(xué)周昌樂教授課題組針對宋詞風(fēng)格“豪放與婉約”的分類問題,研創(chuàng)了基于字和詞為特征的風(fēng)格分類模型、基于頻繁關(guān)鍵字共現(xiàn)的詩歌風(fēng)格判定方法以及基于詞和語義為特征的風(fēng)格分類模型。首都師范大學(xué)尹小林教授最早研發(fā)了“《全唐詩》檢索系統(tǒng)”,北京大學(xué)李鐸教授也研發(fā)了“《全宋詩》分析系統(tǒng)”“《全唐詩》分析系統(tǒng)”“《資治通鑒》分析系統(tǒng)”等。北京大學(xué)杜曉勤教授研發(fā)的“中國古典詩文聲律分析系統(tǒng)”首次實現(xiàn)對中國古典詩歌及有關(guān)韻文進行批量四聲自動標(biāo)注和八病標(biāo)識、數(shù)據(jù)統(tǒng)計功能,不僅有助于研究永明體詩歌的聲病情況,還可考察永明詩律向近體詩律演變的環(huán)節(jié)和過程。中南民族大學(xué)王兆鵬教授是較早采用量化分析研究古代文學(xué)經(jīng)典的專家,他先后主持了“中國古代詩歌史的計量分析”“20世紀(jì)唐五代文學(xué)研究論著目錄檢索系統(tǒng)與定量分析”等多個項目,尤其是唐宋詩詞名篇的定量分析(排行榜)及國家社科重大項目“唐宋文學(xué)編年系地信息平臺”引發(fā)了社會的普遍關(guān)注。

    鄭永曉先生數(shù)年前已經(jīng)呼吁古典文學(xué)研究從數(shù)字化向數(shù)據(jù)化的轉(zhuǎn)變?;诖髷?shù)據(jù)技術(shù)對古代文學(xué)經(jīng)典文本進行高效和深度分析,可將文學(xué)研究納入到一個更宏觀的視野,提高研究結(jié)論的精準(zhǔn)性、穩(wěn)定性及可驗證性,促生新的研究理念、方法與范式。但總體來看,古典文學(xué)研究領(lǐng)域目前還基本處在古籍?dāng)?shù)字化、數(shù)字化檢索和少數(shù)專題數(shù)據(jù)平臺建設(shè)階段。

    現(xiàn)階段數(shù)字人文研究的主要技術(shù)方法,包括機器學(xué)習(xí)與人工智能、數(shù)據(jù)庫建設(shè)、計算語言學(xué)、社會網(wǎng)絡(luò)與地理信息系統(tǒng)、數(shù)據(jù)與文本挖掘等方面。這些技術(shù)方法可分別用于古典詩歌分析系統(tǒng)的嘗試、作家生平事跡研究、古典小說研究、文本與人物研究、文體與文論研究,涵蓋了古典文學(xué)研究的主要方面。

    基于這樣的理解,我們擬以先秦至明清品類紛繁的古代文學(xué)經(jīng)典文本為中心,利用計算機、統(tǒng)計學(xué)、信息科學(xué)等學(xué)科的新興技術(shù)手段,形成如右上圖所示的研究結(jié)構(gòu)。

    研究的流程是文學(xué)專家提出問題——技術(shù)專家設(shè)計算法模型——借助知識庫或數(shù)據(jù)庫等平臺進行文本分析——文學(xué)專家對分析結(jié)果進行解析和研究。數(shù)據(jù)庫建設(shè)、技術(shù)創(chuàng)新運用與文本研究三位一體。數(shù)據(jù)庫是基礎(chǔ),文本分析技術(shù)是關(guān)鍵,最終要落實到發(fā)掘依靠閱讀經(jīng)驗難以發(fā)現(xiàn)的文本組織特征及相互關(guān)系,通過定量統(tǒng)計、定性分析,解決古典文學(xué)研究領(lǐng)域長期存在的疑而難決的作品歸屬、作品辨?zhèn)?、異文辨析、修辭特色、風(fēng)格生成、題材變遷、因革影響等方面的問題,期望在以下諸方向有所推進:

    1.重新驗證已有成說的經(jīng)典史論問題。比如,提出“文必秦漢,詩必盛唐”的明代前后七子為代表的文人群體,其詩文創(chuàng)作是否落實和如何落實其文學(xué)創(chuàng)作的主張?利用共詞分析、語義分析、人物事件交雜等技術(shù)思路,嘗試全新分析和解決諸如文體形式、社團流派、人物關(guān)系、情節(jié)演進、階段特征、歷史影響等問題。

    2.解決人力難以徹底解決的疑難問題,為作品歸屬、重出異文、改編續(xù)寫、風(fēng)格流派、文類劃分等提供新的證據(jù)、思路與方法。如唐宋詩“體格性分之殊”的判斷,詩詞曲三種相近文類格律、用韻、題材、語詞、典故、句法、意象、風(fēng)格的窮盡性統(tǒng)計,為定性分析提供數(shù)據(jù)支撐,可以提高研究結(jié)論的精確性、穩(wěn)定性及可驗證性。

    3.超越主觀感受與印象分析層面,科學(xué)梳理文學(xué)史長時段中存在的特征、規(guī)律、關(guān)聯(lián)性問題。比如陸游詩近萬首,詞自中唐產(chǎn)生而歷經(jīng)各代,他或它們的題材、修辭、風(fēng)格變化軌跡究竟如何,數(shù)者之間的關(guān)系怎樣?通過對一個作家或一類作品的“深度學(xué)習(xí)”(計算語言學(xué)專業(yè)術(shù)語),發(fā)揮其文本比對、關(guān)聯(lián)分析等技術(shù)優(yōu)勢,追蹤挖掘以往不曾注意到的跡象或線索,以期提高文學(xué)經(jīng)典研究的可靠性與科學(xué)性。

    利用大數(shù)據(jù)技術(shù)研究中國古代文學(xué),對學(xué)術(shù)發(fā)展和學(xué)科建設(shè)的意義是明顯的,特別體現(xiàn)在研究范式與思維方式的革新。

    傅斯年認為,“凡一種學(xué)問能擴張他所研究的材料便進步,不能的便退步”。大數(shù)據(jù)技術(shù)可以實現(xiàn)相關(guān)研究史料的全覆蓋,是對以往研究資料的極大擴充。目前研究中普遍存在的檢索依賴會造成史料的類型遮蔽,特別是反證材料的遮蔽。檢索依賴也會導(dǎo)致對史料的解讀脫離歷史語境,無數(shù)孤零零的沒有歷史氣息的材料斷片的組合,無法反映真實的歷史場域中的問題。文學(xué)研究者接受的信息如果是非全息的,文史研究的科學(xué)性和有效性必然值得懷疑。全數(shù)據(jù)分析模式拋棄了隨機性的樣本研究模式,讓研究者具有“上帝視角”,重視對事情整體系統(tǒng)的感知,又強調(diào)基于全數(shù)據(jù)的細節(jié)化,提高認知的精確度,是一種理想的學(xué)術(shù)研究模式。

    傳統(tǒng)的文獻材料彼此間基本上呈現(xiàn)出相對明顯的線性關(guān)系,可以找到前因后果,進而形成相對完整和自洽的因果鏈。大數(shù)據(jù)時代面對的只是具有相關(guān)性的海量數(shù)據(jù),幾乎不可能找到每個數(shù)據(jù)的微觀因果鏈,如果堅持因果路徑,將陷入無窮無盡的因果關(guān)系之中而茫然無措。因此,大數(shù)據(jù)時代不必非得知道現(xiàn)象背后的原因,而是讓數(shù)據(jù)自己發(fā)聲。對思想、情感和藝術(shù)為主體的古典文學(xué)學(xué)科而言,強調(diào)差異性、變異性和獨特性的相關(guān)性分析方法比因果性分析方法可能具有更強的裁斷力。

    大數(shù)據(jù)技術(shù)的興起,使數(shù)據(jù)采集、存儲和處理極大地智能化、自動化?!叭珨?shù)據(jù)模式”將與問題相關(guān)的數(shù)據(jù)一網(wǎng)打盡,最大限度地擺脫客觀條件局限造成的以局部論全部,問題可以得到更系統(tǒng)、更全面、更整體的刻畫,從而得到更精確、更徹底的解決。這是數(shù)據(jù)化帶來的一種嚴(yán)格意義上的整體論,將使思維方式從還原性思維走向整體性思維。

    歷史與邏輯、事實與價值的統(tǒng)一是人文社科研究的基本方法,大數(shù)據(jù)時代的研究尊重全體材料、重視量化分析和兼顧所有關(guān)系,這將有助于促進人文學(xué)科的研究由“解釋性”向“求是性”轉(zhuǎn)向。隨著人的思想、情感、心理的數(shù)據(jù)化,人文學(xué)科的研究對象也能夠?qū)崿F(xiàn)數(shù)據(jù)化,可以通過數(shù)據(jù)挖掘、數(shù)據(jù)分析和數(shù)據(jù)建模來進行研究,這樣人文學(xué)科也就由以往被認作非科學(xué)的學(xué)科躋身于科學(xué)成員的大家庭中,進而發(fā)展出人文科學(xué)。

    總之,大數(shù)據(jù)思維為人文社科研究的變革與創(chuàng)新帶來了千載難逢的歷史機遇,正如美國康奈爾大學(xué)教授杰弗里·漢考克(Jeffrey T. Hancock)所說:“這是社科研究的一個全新時代,就好比顯微鏡的誕生對化學(xué)科學(xué)發(fā)展所起到的促進作用?!?/p>

    需要指出的是,古典文學(xué)研究中新技術(shù)手段的應(yīng)用需要充分依靠計算機科學(xué)和統(tǒng)計學(xué)的專業(yè)技術(shù),在尚缺乏此類技術(shù)力量的今天,必然會促進學(xué)術(shù)研究人力資源的整合,倒逼跨學(xué)科合作研究的開展。但文學(xué)性問題的提出和分析處理不可能完全交給機器,也就不可能完全交給技術(shù)專家。相反,從問題的設(shè)置到語料的選取再到分析結(jié)果的解讀、意義的闡釋、體系的建構(gòu)等,都將由古代文學(xué)和文獻學(xué)相關(guān)領(lǐng)域高水平的專家學(xué)者完成。

    (作者:劉石,系清華大學(xué)人文學(xué)院教授;孫茂松,系清華大學(xué)計算機科學(xué)與技術(shù)系教授)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多