2011年1月10日實(shí)驗(yàn)室2009級(jí)成員董靖靈做了關(guān)于基于LDA模型的文本聚類研究的報(bào)告,該報(bào)告從四個(gè)方面介紹了該方向上的工作:1、語(yǔ)義知識(shí)在文本聚類中的應(yīng)用;2、基于LDA模型的文本聚類;3、實(shí)驗(yàn)數(shù)據(jù)分析;4、進(jìn)一步的工作。具體內(nèi)容如下:
1.語(yǔ)義知識(shí)在文本聚類中的應(yīng)用
1.1.為什么要引入語(yǔ)義知識(shí)
1、聚類是一種無(wú)監(jiān)督的學(xué)習(xí)方法;
2、完全依靠數(shù)據(jù)的驅(qū)動(dòng)來(lái)實(shí)現(xiàn)定制的目標(biāo),是聚類所面臨的挑戰(zhàn);
3、文本是一種富含語(yǔ)義信息的數(shù)據(jù),語(yǔ)義知識(shí)則是反映客觀實(shí)際的數(shù)據(jù)挖掘結(jié)果,是對(duì)該數(shù)據(jù)源的高度概括,是對(duì)隱藏在數(shù)據(jù)源內(nèi)部知識(shí)的一種形式化描述。
1.2. 語(yǔ)義知識(shí)在文本聚類過(guò)程中的應(yīng)用
I. 預(yù)處理、文本建模階段
1、 TF_IDF模型;
2、 結(jié)合語(yǔ)義知識(shí)庫(kù):(1)直接從文本中提取概念空間來(lái)代替詞空間;(2)結(jié)合現(xiàn)有的語(yǔ)義知識(shí)庫(kù)(WordNet、本體論、電子詞典)擴(kuò)充詞空間;(3)利用知識(shí)庫(kù)(Wikipedia)來(lái)創(chuàng)建新的概念庫(kù),從而擴(kuò)充詞空間;
3、 主題模型:
(1)Latent Semantic Analysis模型;(2)Probabilistic Latent Semantic Analysis模型;
(3)Latent Dirichlet Allocation模型;(4)Supervise Topic Model;
(5)Relation Topic Model;(6)Correlated Topic Model;
(7)Pachinko Allocation Model;(8)Author-Recipient Topic Model;
II. 聚類分析階段
1. 聚類方法
“子空間聚類”原理:一個(gè)類別的數(shù)據(jù)只集中于某個(gè)子空間,而非分布在整個(gè)高維空間。
2. 文本相似度計(jì)算
(1)Anna Huang “Clustering Documents using a Wikipedia-Based Concept
Representation” PAKDD 2009
利用Wikipedia創(chuàng)建概念庫(kù),結(jié)合概念在單個(gè)文檔內(nèi)的權(quán)重值(tf_idf)以及概念間的相似度,設(shè)計(jì)出一個(gè)新的度量文本相似性標(biāo)準(zhǔn)。
(2)Xiaohua Hu“Exploiting Wikipedia as External Knowledge for Document
Clustering ” ACM SIGKDD 2009
利用Wikipedia創(chuàng)建概念庫(kù),將文本集映射到基于該概念庫(kù)的VSM模型上,對(duì)于每個(gè)文本得到基于詞的向量、基于概念的向量、基于類別的向量,然后利用加取和的辦法計(jì)算文本間的相似度。
III. 結(jié)果評(píng)估與聚簇描述階段
1. 結(jié)果評(píng)估:量化評(píng)估;用戶參與的交互式評(píng)估。
2. 聚簇描述:對(duì)聚類結(jié)果的準(zhǔn)確描述以及便于用戶瀏覽的展現(xiàn)模式。
① 通過(guò)統(tǒng)計(jì)文本集中包含WordNet概念的頻率,獲取聚簇主題;
② 將文本映射到已知領(lǐng)域本體的樹狀結(jié)構(gòu)上,通過(guò)查找本體的上層概念來(lái)確定文本主題;
③ 利用Wikipedia的類別信息來(lái)抽取文本主題。
2.基于LDA模型的文本聚類
2.1. 為什么選擇LDA模型
從文本聚類的過(guò)程可以看出,相似度計(jì)算是文本聚類中非常重要的一個(gè)步驟,對(duì)聚類結(jié)果的好壞有著直接的影響作用。但傳統(tǒng)的相似度計(jì)算模型僅采取詞頻統(tǒng)計(jì)來(lái)表示文本,丟失了文本間大量的語(yǔ)義信息,從而影響了相似度計(jì)算的效果。因此,我們將采用LDA模型對(duì)文檔集合進(jìn)行建模,得到每個(gè)文本的主題分布向量,挖掘出潛在的語(yǔ)義知識(shí),可以在一定程度上彌補(bǔ)單純利用詞頻信息表示文本帶來(lái)的信息丟失的不足。
2.2. LDA模型簡(jiǎn)介
隱含狄利克雷分配(LDA,Latent Dirichlet Allocation)是近年來(lái)發(fā)展起來(lái)的一種重要的離散數(shù)據(jù)集合的建模方法。它基于一個(gè)常識(shí)性假設(shè):文檔集合中的所有文本均共享一定數(shù)量的隱含主題。
基于該假設(shè),它將整個(gè)文檔集特征化為隱含主題的集合,而每篇文本被表示為這些隱含主題的特定比例的混合。
2.3. LDA模型在文本聚類中的應(yīng)用
I. 預(yù)處理、文本表示模型構(gòu)建階段
優(yōu)點(diǎn):1、考慮潛在語(yǔ)義信息,不單純從機(jī)械的詞頻統(tǒng)計(jì)角度分析文檔;
2、直接映射至內(nèi)部隱含主題,過(guò)濾噪音等干擾信息;
II. 聚類分析階段
LDA主題模型是利用統(tǒng)計(jì)學(xué)的知識(shí),分析文檔集內(nèi)部信息,將集合映射到基于隱含主題的特征空間上。根據(jù)該特征空間,我們提取了基于隱含主題的文本向量,結(jié)合加入TF_IDF權(quán)重的詞向量,利用線性加權(quán)求和的方法,將兩種文本表示向量進(jìn)行有機(jī)融合,更有效計(jì)算地文本間的相似度。
III. 聚簇描述階段
① 針對(duì)聚簇中每篇文檔di,根據(jù)文本-主題模型找出占最大比重的隱含主題Topicmax(di);
② 統(tǒng)計(jì)每個(gè)聚簇中的所有文檔的Topicmax,定位每個(gè)聚簇中占最大比重的Topickey;
③ 根據(jù)每個(gè)聚簇的Topickey ,查找topic-word矩陣以及主題詞列表,篩選出前三個(gè)主題詞。
3. 實(shí)驗(yàn)數(shù)據(jù)分析
3.1. 實(shí)驗(yàn)語(yǔ)料庫(kù)
I. 復(fù)旦中文語(yǔ)料(多標(biāo)簽不平衡)
C5-Education :100 C7-History :100 C19-Computer :100
C34-Economy : 100 C39-Sports :100
詞表大?。?8096
II. 英文:20_Newsgroup (單標(biāo)簽平衡)
comp.os.ms-windows.misc.c :100 comp.sys.ibm.pc.hardware.d : 100
rec.sport.baseball.j :100 sci.space.o :100 talk.politics.misc.s :100
詞表大?。?9126
3.2. 實(shí)驗(yàn)步驟
1、建模過(guò)程中的參數(shù)估計(jì)采用MCMC方法中的Gibbs抽樣算法;
2、設(shè)置α= 50/K、β= 0.01,迭代次數(shù)均為2000次。隱含主題數(shù)K的取值依次由10迭代到200,經(jīng)過(guò)多次實(shí)驗(yàn),在本測(cè)試環(huán)境下K=50時(shí)效果最好。
3.3. 聚類結(jié)果評(píng)測(cè)
實(shí)驗(yàn)評(píng)估的指標(biāo)采用micro_F1和F1。micro_F1用來(lái)評(píng)價(jià)各模型的綜合性能。F1則評(píng)價(jià)各模型在各個(gè)類別上的聚類性能。
實(shí)驗(yàn)結(jié)果表示,單獨(dú)使用LDA模型的聚類效果很差,VSM和LDA二者的恰當(dāng)結(jié)合卻可以明顯地提高聚類的效果,中英文語(yǔ)料在VSM模型的基礎(chǔ)上分別提高了5.5%和4.3%,在LDA模型的基礎(chǔ)上分別提高了10.84%和9.31%。
經(jīng)分析得出,這是因?yàn)長(zhǎng)DA模型只考慮了文本的主題分布,而主題向量的維度為50,僅利用這樣的低緯向量來(lái)計(jì)算文本相似度,必然丟失大量的信息,區(qū)分文本的力度是不夠的。而VSM模型僅利用詞頻建立向量,同樣也會(huì)丟失部分語(yǔ)義信息。但是將二者結(jié)合起來(lái)的VSM+LDA模型,則從主題和詞語(yǔ)兩個(gè)方面來(lái)衡量文本間的相似度,綜合它們各自的優(yōu)勢(shì),互相彌補(bǔ)不足,從而保證了聚類的效果。
4.進(jìn)一步的工作
我們將LDA主題模型引入到文本聚類領(lǐng)域,主要表現(xiàn)在文本建模、文本相似度計(jì)算以及聚簇描述三個(gè)方面。文本建模方面是利用了LDA模型的特性,在原本機(jī)械統(tǒng)計(jì)詞頻的基礎(chǔ)上加入了文本的深層語(yǔ)義知識(shí),從而讓聚類過(guò)程更加精準(zhǔn),降低錯(cuò)誤率。文本相似度計(jì)算方面則將常用的VSM模型與LDA主題模型進(jìn)行一定比例的線性組合,建立多個(gè)文本特征空間,增強(qiáng)文本的向量表示,從而提高文本聚類的質(zhì)量。聚簇描述則讓聚類結(jié)果更加直觀。在復(fù)旦中文語(yǔ)料庫(kù)和Newsgroups英文語(yǔ)料庫(kù)的實(shí)驗(yàn)表明,該方法能夠明顯地提高聚類的效果。
我們未來(lái)擬開展的研究工作包括:
(1)如何進(jìn)一步利用LDA主題模型,更好的表示文本特征,更深層的挖掘出文本信息;
(2)LDA模型是從文檔集內(nèi)部獲取語(yǔ)義知識(shí),如何結(jié)合外部語(yǔ)義知識(shí)庫(kù)提高文本聚類質(zhì)量。
原文來(lái)自:http://202.114.40.171/View.aspx?id=74 |
|
來(lái)自: 枯井道人 > 《統(tǒng)計(jì)》