小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

話題模型(topic model)的提出及發(fā)展歷史

 cjcsu 2017-02-10

topic model 是一種應(yīng)用十分廣泛的產(chǎn)生式模型(generative model),在IR, NLP,ML都有廣泛的應(yīng)用,本文將對目前已有的topic model進行分類總結(jié),然后選擇幾個代表性的topic model進行較為詳細(xì)的介紹,從而理解topic model 的思想,以及怎么應(yīng)用。

topic model最經(jīng)典的模型之一是LDA(latent dirichlet allocation) ,其它的topic model大都充分利用了LDA的思想去設(shè)計,所以下面先簡單地描述一下其生成一個文檔集合過程:


Topic Model (LDA)認(rèn)為一個離散數(shù)據(jù)集合(如文檔集合,圖片集合,為行文方便,本文統(tǒng)統(tǒng)以文檔集合作為描述對象,其他的數(shù)據(jù)集合只需換掉對應(yīng)的術(shù)語即可)是由隱含在數(shù)據(jù)集合背后的topic set 生成的,這個set中的每一個topic都是詞的概率分布。對于文檔中的每一篇文檔,先抽取一個topics proportion \theta;然后對于這個文檔中的每一個詞的位置 w_i, LDA 先從\theta中選擇一個topic,然后再從這個topic對應(yīng)的詞分布中選擇一個詞去填充;按照上述步驟直到整個文檔集合產(chǎn)生完畢。


下面我會把目前出現(xiàn)的topic models進行分門別類,小結(jié)。

我認(rèn)為topic models主要可以分為四大類:1)無監(jiān)督的、無層次結(jié)構(gòu)的topic model;2)無監(jiān)督的、層次結(jié)構(gòu)的topic model;3)有監(jiān)督的、無層次結(jié)構(gòu)的topic model;4)有監(jiān)督的、層次結(jié)構(gòu)的topic model。

對于1)主要有: PLSA, LDA, Correlated Topic Model, PAM,Concept Topic Model等

對于2)主要有: HLDA, HDP,HPAM等

對于3)主要有: S-LDA, Disc-LDA, MM-LDA, Author-Model, Labeled LDA, PLDA 等等

對于4)主要有: hLLDA, HSLDA

以上模型對應(yīng)的文章名字,用google直接搜索即可得到,這里就不列出。


下面對于每一類topic model,我都選擇一個模型來進行介紹:

對于1) 上述已經(jīng)介紹了LDA,所以就不介紹這類模型了;

對于2) 我想介紹HLDA(Hierarchical Latent Dirichlet Allocation) 模型

由于LDA產(chǎn)生出來的topic都是孤立的,topic之間沒有關(guān)系,HLDA模型在LDA的基礎(chǔ)上,試圖建立topic之間的層次關(guān)系,同時考慮到LDA需要指定topic的數(shù)量作為參數(shù),如果能自動決定topic的數(shù)量就比較理想了。為了自動發(fā)現(xiàn)決定topic的數(shù)量,HLDA用Chinese Restaurant  Process去自動決定每一層的topic數(shù)量,然而需要指定topic層次的高度H(也就是有多少層的topic),同時它訓(xùn)練出來的層次結(jié)構(gòu)是等高的,都是H這么高。至于怎么產(chǎn)生文檔的每個詞,這個和LDA都是一樣的。

對于3) 我想介紹Labeled LDA (Labeled Latent Dirichlet Allocation) 模型

這個模型最大的好處是能夠訓(xùn)練出來帶標(biāo)簽的topic,因為在以前的topic model訓(xùn)練出來的topic都是分布,怎么賦予一個標(biāo)簽給這些topic則是很難的一個問題。

Labeled LDA與LDA最大的不同是: LDA是在所有topics上為某一個詞進行選擇某個topic,而labeled LDA則是只從文檔相關(guān)的label對應(yīng)的topic中去選擇,其余和LDA都是一樣的。

對于4) 我想介紹hLLDA (hierarchical Labeled Latent Dirichlet Allocation)模型

這個模型最大的好處就是在Labeled Latent Dirichlet Allocation模型的基礎(chǔ)上擴展到層次結(jié)構(gòu),其思想也是很簡單的,認(rèn)為一個文檔只是由這個文檔對應(yīng)的層次label所產(chǎn)生,具體學(xué)習(xí)和推斷的時候幾乎和Labeled Latent Dirichlet Allocation模型一樣。


這些模型相對來說都是較為容易理解的,關(guān)鍵是要先理解LDA,包括數(shù)學(xué)公式的推導(dǎo),如果LDA能弄得比較清楚,其它的模型就會非常的容易理解。


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多