此文為David M. Blei所寫(xiě)的《Introduction
to Probabilistic Topic Models》的譯文,供大家參考。
摘要:概率主題模型是一系列旨在發(fā)現(xiàn)隱藏在大規(guī)模文檔中的主題結(jié)構(gòu)的算法。本文首先回顧了這一領(lǐng)域的主要思想,接著調(diào)研了當(dāng)前的研究水平,最后展望某些有所希望的方向。從最簡(jiǎn)單的主題模型——潛在狄立克雷分配(Latent Dirichlet Allocation,LDA)出發(fā),討論了其與概率建模的聯(lián)系,描述了用于主題發(fā)現(xiàn)的兩種算法。主題模型日新月異,被擴(kuò)展和應(yīng)用許多領(lǐng)域,其中不乏有趣之處。我們調(diào)研發(fā)現(xiàn)很多擴(kuò)展都弱化了LDA的統(tǒng)計(jì)假設(shè),加入元數(shù)據(jù)(meta-data)進(jìn)行文檔分析,使用近似的模型分析如社會(huì)網(wǎng)絡(luò)、圖像和基因這類(lèi)多樣化的數(shù)據(jù)類(lèi)型。我們?cè)谖恼碌淖詈蠼o出了主題模型目前還未探索但很重要的方向,包括嚴(yán)格檢驗(yàn)數(shù)據(jù)模型的方法,文本和其它高維數(shù)據(jù)可視化的新技術(shù),以及如何從傳統(tǒng)信息工程中的應(yīng)用推廣到更多科學(xué)應(yīng)用。
1 引言
如今公開(kāi)的知識(shí)日益以新聞、博客、網(wǎng)頁(yè)、科學(xué)論文、書(shū)籍、圖像、聲音、視頻和社交網(wǎng)絡(luò)的形式被數(shù)字化存儲(chǔ),巨大的信息量同時(shí)也增加了人們尋找和發(fā)現(xiàn)自己所需要的知識(shí)的難度。人們需要新的計(jì)算工具以組織、搜索和理解這些龐大的信息量?,F(xiàn)在的在線信息挖掘使用兩種主要的工具——搜索和鏈接。向搜索引擎提交關(guān)鍵詞就可以找到相關(guān)的文檔和其它相鏈接的文檔。這種與在線文檔的交互方式雖然有效,但卻丟失了某些信息。
假設(shè)所要搜索和尋找的文檔由各類(lèi)主題組成。這樣,通過(guò)對(duì)文章進(jìn)行“放大”和“縮小”就可以得到較具體或者較粗略的主題;在文檔中就可以看到這些主題是如何隨著時(shí)間變化,或者說(shuō)是如何相互聯(lián)系的。搜索文檔就不只是通過(guò)關(guān)鍵詞尋找,取而代之的是先找到相關(guān)的主題,然后再查找與這一主題相關(guān)的文檔。
拿紐約時(shí)報(bào)所記載的歷史舉例。從較廣的層次來(lái)看,報(bào)紙中的主題就對(duì)應(yīng)著報(bào)紙各個(gè)版塊——對(duì)外政策、國(guó)內(nèi)事務(wù)、體育,再拿對(duì)外政策進(jìn)行“放大”,就可以得到其不同方面——中國(guó)對(duì)外政策、中東沖突、英國(guó)與俄羅斯的關(guān)系。接下來(lái),我們跟蹤這些專(zhuān)題是如何隨著時(shí)間演變的,例如過(guò)去50年里的中東沖突。如此這般探索就能找到與主題相關(guān)的原始文檔。可見(jiàn),這種主題結(jié)構(gòu)是探索和理解文檔的新窗口。
但以這種方法與電子文檔進(jìn)行交互是不現(xiàn)實(shí)的,因?yàn)殡S著網(wǎng)上文本的數(shù)量越來(lái)越多,單單僅靠人力已經(jīng)無(wú)法全部閱讀和研究所有的文本。由此,概率主題建模應(yīng)運(yùn)而生。機(jī)器學(xué)習(xí)領(lǐng)域的研究人員們開(kāi)發(fā)出了一套旨在發(fā)現(xiàn)和標(biāo)記大規(guī)模文檔的主題信息的算法。主題建模算法是一種統(tǒng)計(jì)方法,它通過(guò)分析原文本中的詞以發(fā)現(xiàn)蘊(yùn)藏于其中的主題,主題間的聯(lián)系,以及主題隨時(shí)間的演變(就比如后面圖3,通過(guò)分析耶魯法律找到主題),而且不需要事前對(duì)文檔進(jìn)行標(biāo)記。也就是說(shuō),人力所無(wú)法完成的文檔標(biāo)記,主題建模算法能夠進(jìn)行組織和歸納。
2 潛在狄立克雷分配
潛在狄立克雷分配(LDA)是最簡(jiǎn)單的主題模型,其基礎(chǔ)是文檔是由多個(gè)主題構(gòu)成的。如圖1所示,《Seeking Life’s Bare(Genetic) Necessities》是一篇對(duì)基因數(shù)量進(jìn)行數(shù)據(jù)分析的文章(基因是有機(jī)體賴以進(jìn)化的基礎(chǔ))。
圖1:潛在狄立克雷分配的直觀現(xiàn)象。如圖左所示,假設(shè)主題是詞語(yǔ)上的概率分布;圖右是主題直方圖。從直方圖到文章的詞的過(guò)程是這樣的:首先隨機(jī)產(chǎn)生一個(gè)主題直方圖,然后選擇其中一主題,最后從該主題對(duì)應(yīng)的主題分布中選擇一個(gè)詞。這里的主題和主題直方圖只作說(shuō)明之用,與文章其實(shí)并不相匹配。相匹配的主題見(jiàn)圖2。
文章中不同的詞被高亮在不同的顏色。如“computer”和“prediction”之類(lèi)有關(guān)數(shù)據(jù)分析的詞以藍(lán)色標(biāo)記;如“l(fā)ife”和“organism”之類(lèi)關(guān)于進(jìn)化生物學(xué)的詞以粉紅色標(biāo)記;如“sequenced”和“genes”之類(lèi)有關(guān)遺傳學(xué)的詞以黃色標(biāo)記。將所有詞語(yǔ)進(jìn)行這樣的標(biāo)記,并剔除“and”、“but”和“if”這類(lèi)包含極少主題內(nèi)容的詞語(yǔ)后可以發(fā)現(xiàn),這篇文章由不同主題以不同的比例組成,更進(jìn)一步地看,多個(gè)主題可以幫助人們?cè)谝欢芽萍颊撐闹邪l(fā)現(xiàn)這篇文章。
建立在文檔集合上的統(tǒng)計(jì)模型LDA就試圖描述上述直觀的現(xiàn)象。LDA可以看作是一個(gè)文檔產(chǎn)生的過(guò)程(2.1節(jié)將具體解釋概率模型LDA)。形式化地定義主題是固定的詞語(yǔ)的概率分布。例如,“遺傳學(xué)”主題中“genes”的概率就相當(dāng)高,類(lèi)似地,“進(jìn)化生物學(xué)”主題中“l(fā)ife”的概率也相對(duì)較高。假設(shè)所有的主題在文檔產(chǎn)生之前就已經(jīng)產(chǎn)生且指定。生成文檔(或者說(shuō)生成文檔中的詞)可以看成是如下兩個(gè)過(guò)程:
- 隨機(jī)產(chǎn)生一個(gè)主題直方圖(或者說(shuō)分布);
- 對(duì)文檔中的每個(gè)詞:
- (a) 從第一步產(chǎn)生的直方圖里隨機(jī)選擇一個(gè)主題;
- (b) 從主題對(duì)應(yīng)的詞語(yǔ)的概率分布中隨機(jī)選擇一個(gè)詞。
從文檔產(chǎn)生的過(guò)程來(lái)看,第一步使得每篇文檔由不同主題以不同比例組成。第二步的第二小步(b)使得每篇文檔中每個(gè)詞從一個(gè)主題中得來(lái),其中的主題從第一小步(a)得來(lái)。實(shí)際上,第一步主題直方圖(或者說(shuō)分布)是一個(gè)狄立克雷分布(Dirichlet distribution),其作用是將文檔中的詞分配給不同的主題,那為什么是潛在的呢?且聽(tīng)后面分解。
對(duì)圖1所示的文章來(lái)說(shuō),主題直方圖中主題“遺傳學(xué)”、“數(shù)據(jù)分析”和“進(jìn)化生物學(xué)”都會(huì)占一定比例,文章中每個(gè)詞都由這三個(gè)主題中的一個(gè)所給出。文檔集中也可能會(huì)有一篇關(guān)于“數(shù)據(jù)分析”和“神經(jīng)科學(xué)”;其主題直方圖中這兩個(gè)主題都將占有一定的比例;這就是潛在狄立克雷分配的顯著特征——集合中所有文檔共享同一主題集合,但每個(gè)文檔中各個(gè)主題所占的比例又都各不相同。
如前引言所述,主題建模的目的是為了自動(dòng)地發(fā)現(xiàn)文檔集中的主題。文檔自然是可被觀察到的,但主題結(jié)構(gòu)——主題、主題直方圖(或者分布)和主題的詞分布——卻是隱藏的。所以主題建模的中心問(wèn)題就是利用看到的文檔推斷出隱藏的主題結(jié)構(gòu),其實(shí)也就是產(chǎn)生文檔的逆過(guò)程。
圖2:圖1的LDA。我們從《自然》上的17000篇文章提取100個(gè)主題及其相關(guān)詞,然后對(duì)圖1所示的文章進(jìn)行分析,左邊是主題所占比例的直方圖,右邊是文章常見(jiàn)主題的最常出現(xiàn)的前15個(gè)詞。
如圖2所示,就是一個(gè)推斷圖1中文章的例子。使用主題建模算法(假設(shè)有100個(gè)主題)推斷《科學(xué)》上17000篇文章的潛在主題結(jié)構(gòu),然后推斷出最能描述圖1中示例文章的主題分布(圖左)。需要注意的是,盡管主題分布上有無(wú)窮個(gè)主題,但事實(shí)上只有其中的一小部分的概率不為零。進(jìn)一步地,文章中詞可被分主題進(jìn)行組織,可以看到最常見(jiàn)的主題所包含的概率最大的詞。
需要強(qiáng)調(diào)的是,算法事先并不知道這些主題,文章也未有關(guān)鍵詞或主題標(biāo)記。計(jì)算潛在結(jié)構(gòu)得到的主題分布可以產(chǎn)生所觀察到的文檔集合(由推斷算法產(chǎn)生的主題對(duì)所分析的文檔集合幾乎都具有可解釋性,主題似乎與語(yǔ)言的統(tǒng)計(jì)結(jié)構(gòu)和LDA的具體概率假設(shè)有關(guān))。如圖3顯示了《Yale Law Journal》中發(fā)現(xiàn)的主題(這里設(shè)置主題數(shù)為20)。主題由基因和數(shù)據(jù)分析替換為歧視和合同法。主題建模是管理、組織和標(biāo)記大規(guī)模文本的一種算法。推斷得到的隱藏結(jié)構(gòu)近似于文檔集的主題結(jié)構(gòu),能標(biāo)記文檔集中各個(gè)文檔。這代替了痛苦的手工標(biāo)記,并有助于信息檢索,分類(lèi)和語(yǔ)料庫(kù)搜索。
2.1 LDA和概率模型
LDA和其它主題模型都屬于概率建模這一更大領(lǐng)域。數(shù)據(jù)被看作是經(jīng)過(guò)包括隱藏變量在內(nèi)的生成過(guò)程得到的。生成過(guò)程定義了觀測(cè)隨機(jī)變量和隱藏隨機(jī)變量的聯(lián)合概率分布。通過(guò)使用聯(lián)合分布來(lái)計(jì)算在給定觀測(cè)變量下隱藏變量的條件分布(后驗(yàn)分布)來(lái)進(jìn)行數(shù)據(jù)分析。對(duì)于LDA來(lái)說(shuō),觀測(cè)變量就是文檔中的詞;隱藏變量就是主題結(jié)構(gòu);生成過(guò)程如之前所述。那么推測(cè)從文檔中隱藏的主題結(jié)構(gòu)的問(wèn)題其實(shí)就是計(jì)算在給定文檔下隱藏變量的條件分布(后驗(yàn)分布)。
形式化地定義如下:所有主題為β1:K,其中βk是第k個(gè)主題的詞的分布(如圖1左部所示)。第d個(gè)文檔中主題所占的比例為θd,其中θd,k表示第k個(gè)主題在第d個(gè)文檔中的比例(圖1右部的直方圖)。第d個(gè)文檔的主題全體為zd,其中zd,n是第d個(gè)文檔中第n個(gè)詞的主題(如圖1中有顏色的圓圈)。第d個(gè)文檔中所有詞記為wd,其中wd,n是第d個(gè)文檔中第n個(gè)詞,每個(gè)詞都是固定的詞匯表中的元素。那么LDA的生成過(guò)程對(duì)應(yīng)的觀測(cè)變量和隱藏變量的聯(lián)合分布如下:
(1)
這一分布指明變量之間的依賴關(guān)系。例如,zd,n依賴于θd,wd,n依賴于zd,n和β1:K(在操作上,先確定zd,n指的哪個(gè)主題,然后再看wd,n在主題中的概率)。正是這些依賴定義了LDA:它們存在于生成過(guò)程的統(tǒng)計(jì)假設(shè)里,在聯(lián)合分布的特定數(shù)學(xué)形式里以及LDA的概率圖模型里(概率圖模型為描述概率分布提供一個(gè)圖形化的語(yǔ)言,如圖4所示。事實(shí)上概率圖模型是闡明概率獨(dú)立、圖理論和計(jì)算概率分布的算法的有力工具)。這三種表現(xiàn)形式在描述LDA的概率假設(shè)上是等價(jià)的。
圖4:LDA的圖模型。每個(gè)結(jié)點(diǎn)表示一個(gè)隨機(jī)變量,并且根據(jù)其在生成過(guò)程中的角色予以標(biāo)記(見(jiàn)圖1)。隱藏變量對(duì)應(yīng)的結(jié)點(diǎn)是白色的,觀測(cè)變量wd,n對(duì)應(yīng)的結(jié)點(diǎn)是灰色的。在圖模型中,矩形表示變量的重復(fù)。
從歷史來(lái)看,潛在語(yǔ)義分析中最具開(kāi)創(chuàng)性的研究是對(duì)文檔詞矩陣進(jìn)行奇異值分解得到詞之間,文檔之間和文檔與詞之間的潛在聯(lián)系。概率潛在語(yǔ)義分析(probabilistic latent semantic analysis,pLSI)是它的概率版本,而LDA是用以解決pLSI的問(wèn)題,可以看作是對(duì)離散數(shù)據(jù)進(jìn)行主成分分析。下一章節(jié)將詳細(xì)描述LDA的推斷算法。
2.2 LDA后驗(yàn)概率的計(jì)算
使用前面的記號(hào),LDA后驗(yàn)概率的公式為
(2)
分子為隨機(jī)變量的聯(lián)合分布。對(duì)于隱藏變量的任何值來(lái)說(shuō),聯(lián)合分布是容易計(jì)算的。分母是觀測(cè)變量的邊際概率,是通過(guò)觀察可見(jiàn)的語(yǔ)料庫(kù)得到的概率。理論上,可以通過(guò)將聯(lián)合分布對(duì)隱藏變量的所有可能值進(jìn)行累加得到。但其計(jì)算量在實(shí)際操作中是異常龐大的(對(duì)于一個(gè)主題,這種累加包括了將每個(gè)詞的所有可能的主題配置,而且文檔集合通常有數(shù)量級(jí)達(dá)百萬(wàn)的詞)。就像眾多現(xiàn)代概率模型(包括貝葉斯統(tǒng)計(jì))那樣,后驗(yàn)概率的分母(即先驗(yàn)概率)往往是無(wú)法計(jì)算得到的。故而現(xiàn)代概率建模的一個(gè)核心研究目標(biāo)就是盡一切可能接近之。如前圖1和圖3所述的那樣,主題建模算法其實(shí)是求得近似后驗(yàn)分布的常用方法的一種變種。
主題建模算法主要有兩類(lèi):基于采樣的算法和變分算法?;诓蓸拥乃惴ㄍㄟ^(guò)收集后驗(yàn)分布的樣本,以樣本的分布求得后驗(yàn)分布的近似。主題建模中最常用的采樣算法是吉布斯采樣(Gibbs sampling),通過(guò)吉布斯采樣構(gòu)造馬爾可夫鏈(Markov chain),而馬爾可夫鏈的極限分布就是后驗(yàn)分布。馬爾可夫鏈?zhǔn)怯瑟?dú)立于前一個(gè)隨機(jī)變量的隨機(jī)變量組成的串。對(duì)主題模型來(lái)說(shuō),隨機(jī)變量就是定義在一個(gè)特定的語(yǔ)料庫(kù)上的隱藏主題。采樣算法從馬爾可夫鏈的極限分布上收集樣本,再用這些樣本來(lái)近似后驗(yàn)分布。通常,只有概率最高的樣本會(huì)被收集以作為主題結(jié)構(gòu)的近似。文獻(xiàn)[33]詳細(xì)描述了LDA的吉布斯采樣,開(kāi)源社區(qū)里有R語(yǔ)言的快速開(kāi)源實(shí)現(xiàn)(http://cran./web/packages/lda/index.html)。
變分算法的確定性要比基于采樣算法高上不少。變分算法先假定一族在隱藏結(jié)構(gòu)之上的參數(shù)化的分布,再尋找與后驗(yàn)分布最接近的分布(概率分布之間的距離使用信息論的Kullback-Leibler散度度量,)。也就說(shuō),推斷問(wèn)題轉(zhuǎn)換為了最優(yōu)化問(wèn)題。變分算法的創(chuàng)新之處也正在于此,它將最優(yōu)化引入了概率建模中。文獻(xiàn)[8]介紹了協(xié)調(diào)上升的變分推斷算法;文獻(xiàn)[20]介紹了一個(gè)更為快速的在線算法(以及開(kāi)源軟件),它能輕松處理上百萬(wàn)文檔并能適應(yīng)文本流的集合。
粗略地講,這兩種算法都在主題結(jié)構(gòu)上進(jìn)行了搜索,而固定的文檔集合提供了搜索的方向。哪種方法更適合取決于所使用的具體的主題模型(下面的章節(jié)會(huì)介紹除LDA以外的其它主題模型),而這通常是學(xué)院派們爭(zhēng)論的導(dǎo)火索。文獻(xiàn)[1]很好地討論了這兩種方法的優(yōu)缺點(diǎn)。
3 主題建模的研究進(jìn)展
簡(jiǎn)單的LDA模型提供發(fā)現(xiàn)和探索大規(guī)模文本中隱藏主題結(jié)構(gòu)的有力工具。LDA形式化為概率模型的一個(gè)主要優(yōu)點(diǎn)在于它可以作為一個(gè)模塊被其它更復(fù)雜的模塊應(yīng)用更為復(fù)雜的應(yīng)用系統(tǒng)中。
3.1 弱化LDA的假設(shè)
LDA由對(duì)語(yǔ)料庫(kù)的統(tǒng)計(jì)假設(shè)定義,主題建模研究領(lǐng)域中一個(gè)熱點(diǎn)就是如何弱化和擴(kuò)展這些假設(shè)以發(fā)現(xiàn)文本中更加復(fù)雜的結(jié)構(gòu)。
如果不考慮詞在文檔中的順序,那么一個(gè)文檔就是一個(gè)詞袋?!霸~袋”就是LDA的一個(gè)假設(shè)(對(duì)于文檔中詞的任意排列,式(1)都不變)。這個(gè)假設(shè)當(dāng)然不符合現(xiàn)實(shí),對(duì)于復(fù)雜的諸如語(yǔ)言生成之類(lèi)的目標(biāo)顯然是不合適的,但對(duì)發(fā)現(xiàn)文本語(yǔ)義結(jié)構(gòu)是有理可循的(緩慢移動(dòng)圖1文章中的詞,盡管詞移動(dòng)了位置,文章仍然與遺傳學(xué)相關(guān))。LDA上模型的不可交換的詞也有諸多擴(kuò)展。例如,文獻(xiàn)[36]弱化了詞袋模型,假設(shè)主題生成詞時(shí)以前一個(gè)詞作為條件;文獻(xiàn)[18]提出了在LDA和隱馬爾可夫模型之間進(jìn)行切換的主題模型。這些模型顯著地?cái)U(kuò)展了參數(shù)空間,并且顯示了語(yǔ)言建模帶來(lái)的性能提升。
LDA的另一個(gè)假設(shè)是文檔的順序與LDA無(wú)關(guān)(對(duì)于文檔的任意順序的排列,式(1)同樣不變)。但當(dāng)文檔集所跨越的時(shí)間有幾年或幾個(gè)世紀(jì)時(shí),這個(gè)假設(shè)可能就不合理了。當(dāng)遇到這樣的集合時(shí),通常假設(shè)主題是隨著時(shí)間而發(fā)生變化的。這樣,主題就是動(dòng)態(tài)的[5]。動(dòng)態(tài)主題模型考慮了文檔的先后順序,并給出了內(nèi)涵比LDA更豐富后驗(yàn)主題結(jié)構(gòu)。圖5展示了使用動(dòng)態(tài)主題模型分析所有科學(xué)雜志得到的一個(gè)主題。這個(gè)主題就不只是詞的單一分布,而是詞的一連串分布。這樣,潛在的主題就可以被發(fā)現(xiàn)和跟蹤。
圖5:兩個(gè)主題的動(dòng)態(tài)主題模型。這個(gè)模型的語(yǔ)料庫(kù)是1880年到2002年的《科學(xué)》雜志。圖中每十年提取一些常見(jiàn)詞。
LDA的第三個(gè)假設(shè)是主題的數(shù)量已知且固定。貝葉斯非參數(shù)主題模型[34]提供了:在后驗(yàn)推斷中文檔集決定了主題數(shù)量,而且新文檔中會(huì)有前面文檔所沒(méi)有的主題。貝葉斯非參數(shù)主題模型可以通過(guò)數(shù)據(jù)推斷,擴(kuò)展成一系列從較通用到較具體的主題層次,就像一棵主題樹(shù)一樣。
LDA還有弱化其它假設(shè)的擴(kuò)展。相關(guān)主題模型[6]和彈球分配機(jī)器[24]將同時(shí)出現(xiàn)的主題視作相關(guān)(例如與地理有關(guān)的文檔可能運(yùn)動(dòng)相關(guān),但它更可能與化學(xué)相關(guān));球狀主題模型[28]允許詞不太可能在主題中出現(xiàn)(例如,“扭傷”顯然不太可能出現(xiàn)有關(guān)“貓”的主題里);稀疏主題模型進(jìn)一步強(qiáng)化了主題分布的結(jié)構(gòu)[37];而“稠密”主題模型則是詞數(shù)的一個(gè)更符合實(shí)際的模型[15]。
3.2 結(jié)合元數(shù)據(jù)
在文本分析配置中,文檔通常包含些諸如作者、題目、地理位置、鏈接等其它額外信息。這些信息可以被用于適配主題模型。目前如何結(jié)合這些元數(shù)據(jù)是百家爭(zhēng)鳴。
作者主題模型[29]是較早成功的例子。每個(gè)作者擁有一個(gè)主題直方圖;多個(gè)作者的論文中的詞由其中一個(gè)作者的主題直方圖決定。作者主題模型允許從作者或文檔進(jìn)行推斷。Rosen-Zvi等人在論文中展示利用作者的主題直方圖計(jì)算作者間的相似性的例子,而LDA是無(wú)法勝任這一工作的。又比如,由于許多文檔集合通常是相互鏈接的(例如科技論文相互引用或者網(wǎng)頁(yè)相互鏈接),一些主題模型就考慮將那些鏈接用以估計(jì)主題。關(guān)系主題模型[13]假設(shè)所有文檔都由LDA生成,文檔間的鏈接取決于它們主題直方圖的距離。關(guān)系主題模型不僅是新的主題模型,而且是新的網(wǎng)絡(luò)模型,其與傳統(tǒng)網(wǎng)絡(luò)統(tǒng)計(jì)模型不同之處在于,它將用于為鏈接建模的節(jié)點(diǎn)屬性(文檔的詞)考慮在內(nèi)。
其它結(jié)合元數(shù)據(jù)的主題模型有語(yǔ)言結(jié)構(gòu)模型[10],關(guān)注語(yǔ)料庫(kù)間的距離的模型[38],命名實(shí)體模型[26]。更一般的方法包括狄立克雷多項(xiàng)式回歸模型[25]和監(jiān)督主題模型[7]。
3.3 其他類(lèi)型的數(shù)據(jù)
在LDA中,主題是詞上的離散分布,并用于產(chǎn)生文檔中的詞(觀測(cè)值)。LDA的一個(gè)優(yōu)勢(shì)在于其主題參數(shù)和數(shù)據(jù)生成所用的分布,它們經(jīng)過(guò)微調(diào)就可以適配于其它類(lèi)型的觀測(cè)值所對(duì)應(yīng)的推斷算法。LDA作為典型的主題模型,可以看作是分組數(shù)據(jù)的成員混合模型(mixed-membership model),而不只是將一組文檔(觀測(cè)值)與一個(gè)主題(部件)相關(guān)。每組文檔都以不同的比例包含著不同的主題。為了適配諸如調(diào)查數(shù)據(jù)、用戶偏好、聲頻和音樂(lè)、計(jì)算機(jī)代碼、網(wǎng)絡(luò)日志和社交網(wǎng)絡(luò)這些多種多樣的數(shù)據(jù),LDA衍生出眾多模型來(lái)處理和分析之。下面介紹兩個(gè)成員混合模型已取得顯著成功的領(lǐng)域。
在群體遺傳學(xué)中,研究人員也獨(dú)立地開(kāi)發(fā)出了相同的概率模型,用以在個(gè)體采樣得到的基因中尋找人類(lèi)祖先(例如,人類(lèi)從非洲、歐洲或中東等地起源)[27]?;驹硎敲總€(gè)個(gè)體的基因型是由一個(gè)或多個(gè)祖先群體遺傳的。生物學(xué)家們通過(guò)與LDA非常相似的模型,描述了在這些人群中的基因模式(即“主題”),并辨認(rèn)出單個(gè)個(gè)體的基因組成(即“主題直方圖”)。這一模型如此有效的原因就在于即使具有“純種”祖先基因的個(gè)體不存在,其基因模式依然可以假設(shè),并通過(guò)實(shí)驗(yàn)得到。
LDA模型的推斷算法還可用于自然圖像的檢索、分類(lèi)和組織,因此LDA也被廣泛地應(yīng)用于計(jì)算機(jī)視覺(jué)中。研究者們已經(jīng)從圖像到文檔做了一個(gè)直接的類(lèi)比。在文檔分析的假設(shè)中,每個(gè)文檔包含多個(gè)主題,文檔集中的所有文檔共享同一個(gè)主題集。在圖像分析的假設(shè)中,每副圖像是多個(gè)視覺(jué)模式的組合,同一個(gè)視覺(jué)模式在圖像集中不斷重現(xiàn)(預(yù)處理階段會(huì)分析圖像以得到視覺(jué)模式(或者“視覺(jué)單詞”)的集合)。主題模型在計(jì)算機(jī)視覺(jué)中被用于圖像分類(lèi)[16],關(guān)聯(lián)圖像和字幕[4],建立圖像層次[2,23,31]等。
4 展望
主題模型是機(jī)器學(xué)習(xí)的新興領(lǐng)域,有很多新方向亟待探索。
評(píng)價(jià)和模型驗(yàn)證 主題模型的評(píng)測(cè)和有效性脫節(jié)。一般的評(píng)價(jià)過(guò)程如下,首先取一部分語(yǔ)料做為測(cè)試集,然后從剩下的語(yǔ)料中訓(xùn)練不同的主題模型,并在測(cè)試集上度量其近似性(例如概率),最后選擇性能最好的模型。但主題模型通常是用于組織、總結(jié)和幫助研究者探索大規(guī)模語(yǔ)料,技術(shù)上無(wú)法保證,準(zhǔn)確性越高,組織性就越好或者解釋得就越簡(jiǎn)單。主題建模的一個(gè)開(kāi)放課題是與算法使用相匹配的評(píng)測(cè)方法。那么如何基于主題的解釋性來(lái)比較主題模型呢?這就是模型驗(yàn)證問(wèn)題,當(dāng)面對(duì)一個(gè)新語(yǔ)料和新問(wèn)題時(shí),應(yīng)該如何選擇主題模型呢?哪些建模假設(shè)對(duì)問(wèn)題是重要的,哪些是不重要的?該如何試驗(yàn)眾多已經(jīng)開(kāi)發(fā)的主題模型呢?這些問(wèn)題引起了統(tǒng)計(jì)學(xué)家的興趣[9,30],但他們對(duì)機(jī)器學(xué)習(xí)處理的問(wèn)題的規(guī)模認(rèn)識(shí)不足。這些計(jì)算問(wèn)題的新答案將是對(duì)主題模型的重要貢獻(xiàn)。
可視化和用戶接口 主題模型另一個(gè)充滿希望的未來(lái)方向是開(kāi)發(fā)與主題和語(yǔ)料庫(kù)交互的新方法。主題模型提供了探索大規(guī)模文本的新結(jié)構(gòu),那么如何使用這一結(jié)構(gòu)呢?一個(gè)問(wèn)題就是如何展示主題。主題一般通過(guò)列舉其最常出現(xiàn)的詞來(lái)展示(如圖2),但選擇不同的詞展示或者以不同的方式來(lái)標(biāo)記主題,可能會(huì)更有效。更進(jìn)一步,如何更好地展示一個(gè)文檔中的主題模型呢?從文檔上來(lái)看,主題模型提供了文檔結(jié)構(gòu)的潛在的有用信息。結(jié)合有效的主題標(biāo)記,讀者可以辨認(rèn)出文檔中最感興趣的部分。此外,隱藏的主題直方圖隱式地將各個(gè)文檔相互連接(考慮文檔直方圖的距離)。如何顯示這些連接?整個(gè)語(yǔ)料與其推斷的主題結(jié)構(gòu)的有效接口是什么?
這些用戶接口問(wèn)題對(duì)主題建模非常重要。主題建模算法很有希望提示大規(guī)模文檔的有意義的主題結(jié)構(gòu),但要讓它有用需要在信息可視化和用戶接口上多下工夫。
用主題模型進(jìn)行數(shù)據(jù)發(fā)現(xiàn) 主題模型伴隨著信息工程應(yīng)用而來(lái),主題模型作為統(tǒng)計(jì)模型應(yīng)該能提供關(guān)于數(shù)據(jù)的信息或者幫助建立假設(shè)。主題模型的后驗(yàn)分布提供了什么信息?這一問(wèn)題已經(jīng)出現(xiàn)在政治科學(xué)[19]、生物學(xué)[17]和心理學(xué)[32]等領(lǐng)域,這類(lèi)研究使用主題模型來(lái)度量所關(guān)注的外部變量,是非監(jiān)督學(xué)習(xí)中的難題,必須小心驗(yàn)證。
這個(gè)問(wèn)題通??捎捎?jì)算機(jī)科學(xué)家與其它領(lǐng)域的學(xué)者合作使用主題模型來(lái)助力數(shù)據(jù)的探索、可視化和抽象假設(shè)。除了遺傳學(xué)和神經(jīng)學(xué)等科學(xué)應(yīng)用系統(tǒng),主題模型還可以應(yīng)用于歷史、社會(huì)、語(yǔ)言、政治學(xué)、法律學(xué)和比較文學(xué)等其它以文本作為研究媒介的領(lǐng)域。通過(guò)與各學(xué)科的學(xué)者進(jìn)行合作,計(jì)算機(jī)科學(xué)家們開(kāi)始開(kāi)發(fā)出新的跨學(xué)科的計(jì)算方法,來(lái)處理大量的文本,并從中提取潛在內(nèi)涵。
5 總結(jié)
本文調(diào)研了處理大規(guī)模文檔的一套統(tǒng)計(jì)模型——概率主題模型。近年來(lái),隨著可擴(kuò)展部件建模、后驗(yàn)推斷的可擴(kuò)展算法和大數(shù)據(jù)集的日益增多等非監(jiān)督機(jī)器學(xué)習(xí)的有力支持,主題模型有希望成為總結(jié)和理解人們?nèi)找嬖鲩L(zhǎng)的數(shù)字化信息檔案的重要部件。
參考文獻(xiàn)
[1]Asuncion, M. Welling, P. Smyth, and Y. Teh. On smoothing and inference for topic models. In Uncertainty in Artificial Intelligence, 2009.
[2]E. Bart, M. Welling, and P. Perona. Unsupervised organization of image collections: Unsupervised organization of image collections: Taxonomies and beyond. Transactions on Pattern Recognition and Machine Intelligence, 2010.
[3] D. Blei, T. Griffths, and M. Jordan. The nested Chinese restaurant process and Bayesian nonparametric inference of topic hierarchies. Journal of the ACM, 57(2):1–30, 2010.
[4] D. Blei and M. Jordan. Modeling annotated data. In Proceedings of the 26th annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 127–134. ACM Press, 2003.
[5] D. Blei and J. Lafferty. Dynamic topic models. In International Conference on Machine Learning, pages 113–120, New York, NY, USA, 2006. ACM.
[6] D. Blei and J. Lafferty. A correlated topic model of Science. Annals of Applied Statistics, 1(1):17–35, 2007.
[7] D. Blei and J. McAuliffe. Supervised topic models. In Neural Information Processing Systems, 2007.
[8] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993–1022, January 2003.
[9] G. Box. Sampling and Bayes’ inference in scienti?c modeling and robustness. Journal of the Royal Statistical Society, Series A, 143(4):383–430, 1980.
[10] J. Boyd-Graber and D. Blei. Syntactic topic models. In Neural Information Processing Systems, 2009.
[11] W. Buntine. Variational extentions to EM and multinomial PCA. In European Conference on Machine Learning, 2002.
[12] W. Buntine and A. Jakulin. Discrete component analysis. In Subspace, Latent Structure and Feature Selection. Springer, 2006.
[13] J. Chang and D. Blei. Hierarchical relational models for document networks. Annals of Applied Statistics, 4(1), 2010.
[14] S. Deerwester, S. Dumais, T. Landauer, G. Furnas, and R. Harshman. Indexing by latent semantic analysis. Journal of the American Society of Information Science, 41(6):391–407, 1990.
[15] G. Doyle and C. Elkan. Accounting for burstiness in topic models. In International Conference on Machine Learning, pages 281–288. ACM, 2009.
[16] L. Fei-Fei and P. Perona. A Bayesian hierarchical model for learning natural scene categories. IEEE Computer Vision and Pattern Recognition, pages 524–531, 2005.
[17] S. Gerrish and D. Blei. A language-based approach to measuring scholarly impact. In International Conference on Machine Learning, 2010.
[18] T. Gri?ths, M. Steyvers, D. Blei, and J. Tenenbaum. Integrating topics and syntax. In L. K. Saul, Y. Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 17, pages 537–544, Cambridge, MA, 2005. MIT Press.
[19] J. Grimmer. A Bayesian hierarchical topic model for political texts: Measuring expressed agendas in senate press releases. Political Analysis, 18(1):1, 2010.
[20] M. Hoffman, D. Blei, and F. Bach. On-line learning for latent Dirichlet allocation. In Neural Information Processing Systems, 2010.
[21] T. Hofmann. Probabilistic latent semantic analysis. In Uncertainty in Arti?cial Intelli-gence (UAI), 1999.
[22] M. Jordan, Z. Ghahramani, T. Jaakkola, and L. Saul. Introduction to variational methods for graphical models. Machine Learning, 37:183–233, 1999.
[23] J. Li, C. Wang, Y. Lim, D. Blei, and L. Fei-Fei. Building and using a semantivisual image hierarchy. In Computer Vision and Pattern Recognition, 2010.
[24] W. Li and A. McCallum. Pachinko allocation: DAG-structured mixture models of topic correlations. In International Conference on Machine Learning, pages 577–584, 2006.
[25] D. Mimno and A. McCallum. Topic models conditioned on arbitrary features with Dirichlet-multinomial regression. In Uncertainty in Arti?cial Intelligence, 2008.
[26] D. Newman, C. Chemudugunta, and P. Smyth. Statistical entity-topic models. In Knowledge Discovery and Data Mining, 2006.
[27] J. Pritchard, M. Stephens, and P. Donnelly. Inference of population structure using multilocus genotype data. Genetics, 155:945–959, June 2000.
[28] J. Reisinger, A. Waters, B. Silverthorn, and R. Mooney. Spherical topic models. In International Conference on Machine Learning, 2010.
[29] M. Rosen-Zvi, T. Griffths, M. Steyvers, and P. Smith. The author-topic model for authors and documents. In Proceedings of the 20th Conference on Uncertainty in Arti?cial Intelligence, pages 487–494. AUAI Press, 2004.
[30] D. Rubin. Bayesianly justi?able and relevant frequency calculations for the applied statistician. The Annals of Statistics, 12(4):1151–1172, 1984.
[31] J. Sivic, B. Russell, A. Zisserman, W. Freeman, and A. Efros. Unsupervised discovery of visual object class hierarchies. In Conference on Computer Vision and Pattern Recognition, 2008.
[32] R. Socher, S. Gershman, A. Perotte, P. Sederberg, D. Blei, and K. Norman. A Bayesian analysis of dynamics in free recall. In Neural Information Processing Systems, 2009.
[33] M. Steyvers and T. Griffths. Probabilistic topic models. In T. Landauer, D. McNamara, S. Dennis, and W. Kintsch, editors, Latent Semantic Analysis: A Road to Meaning. Laurence Erlbaum, 2006.
[34] Y. Teh, M. Jordan, M. Beal, and D. Blei. Hierarchical Dirichlet processes. Journal of the American Statistical Association, 101(476):1566–1581, 2006.
[35] M. Wainwright and M. Jordan. Graphical models, exponential families, and variational inference. Foundations and Trends in Machine Learning, 1(1–2):1–305, 2008.
[36] H. Wallach. Topic modeling: Beyond bag of words. In Proceedings of the 23rd International Conference on Machine Learning, 2006.
[37] C. Wang and D. Blei. Decoupling sparsity and smoothness in the discrete hierarchical dirichlet process. In Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, and A. Culotta, editors, Advances in Neural Information Processing Systems 22, pages 1982–1989.
2009.
[38] C. Wang, B. Thiesson, C. Meek, and D. Blei. Markov topic models. In Arti?cial Intelligence and Statistics, 2009.