【導(dǎo)讀】主題薈萃知識(shí)是專知的核心功能之一,為用戶提供AI領(lǐng)域系統(tǒng)性的知識(shí)學(xué)習(xí)服務(wù)。主題薈萃為用戶提供全網(wǎng)關(guān)于該主題的精華(Awesome)知識(shí)資料收錄整理,使得AI從業(yè)者便捷學(xué)習(xí)和解決工作問題!在專知人工智能主題知識(shí)樹基礎(chǔ)上,主題薈萃由專業(yè)人工編輯和算法工具輔助協(xié)作完成,并保持動(dòng)態(tài)更新!另外歡迎對(duì)此創(chuàng)作主題薈萃感興趣的同學(xué),請(qǐng)加入我們專知AI創(chuàng)作者計(jì)劃,共創(chuàng)共贏! 今天專知為大家呈送第十六篇專知主題薈萃-主題模型知識(shí)資料大全集薈萃 (入門/進(jìn)階/綜述/視頻/代碼/專家等),請(qǐng)大家查看!專知訪問www.zhuanzhi.ai, 或關(guān)注微信公眾號(hào)后臺(tái)回復(fù)' 專知'進(jìn)入專知,搜索主題“主題模型”查看。此外,我們也提供該文網(wǎng)頁桌面手機(jī)端(www.zhuanzhi.ai)完整訪問,可直接點(diǎn)擊訪問收錄鏈接地址,以及pdf版下載鏈接,請(qǐng)文章末尾查看!此為初始版本,請(qǐng)大家指正補(bǔ)充,歡迎在后臺(tái)留言!歡迎大家分享轉(zhuǎn)發(fā)~
基礎(chǔ)入門Topic model 介紹 簡(jiǎn)介:簡(jiǎn)要了解主題模型是什么意思,最基本的概念https://en./wiki/Topic_model 概率主題模型簡(jiǎn)介 Introduction to Probabilistic Topic Models 簡(jiǎn)介:一步讓你知道什么是lda,翻譯了提出主題模型大神對(duì)概率主題模型的描述。中文文檔更適合入門。David M. Blei所寫的《Introduction to Probabilistic Topic Models》的譯文http://www.cnblogs.com/siegfang/archive/2013/01/30/2882391.html 主題模型-LDA淺析:簡(jiǎn)述了LDA的基礎(chǔ)概念,描述了模型的生成過程,幫助你進(jìn)一步了解主題模型~! http://blog.csdn.net/huagong_adu/article/details/7937616 Latent dirichlet allocation:開山之作LDA原論文。了解了主題模型的基礎(chǔ)知識(shí)之后可以開始看原論文了。原文看不太懂也不要著急,可以先看個(gè)大概~ 作者:David M. Blei, Andrew Y. Ng, and Michael I. Jordan 順便介紹一下Blei大神:David M. Blei Professor in the Statistics and Computer Science departments at Columbia University. Prior to fall 2014 he was an Associate Professor in the Department of Computer Science at Princeton University. His work is primarily in machine learninghttp://www./papers/volume3/blei03a/blei03a.pdf Rickjin 騰訊的rickjin大神:LDA數(shù)學(xué)八卦 簡(jiǎn)介:傳說中的“上帝擲骰子”的來源之處。這篇文章是一個(gè)連載的科普性博客,作者是rickjin,文章分為7個(gè)章節(jié),主要5個(gè)章節(jié)講得是Gamma函數(shù)、Beta/Dirichlet函數(shù)、MCMC和Gibbs采樣、文本建模、LDA文本建模,對(duì)于想要了解和LDA的同學(xué)來說,是一篇很好的入門教程,建議結(jié)合Blei的開山之作一起看。http://download.csdn.net/download/happyer88/8791493 LDA漫游指南 作者:馬晨 清華大學(xué)在讀博士,畢業(yè)于北京郵電大學(xué)碩士,曾任新浪網(wǎng)公司自然語言處理算法工程師。 簡(jiǎn)介:完全明白主題模型的必備之路:一份從數(shù)學(xué)基礎(chǔ)開始講的教程,與LDA數(shù)學(xué)八卦可以互為補(bǔ)充。https://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a.html### 《Supervised topic models》: 有監(jiān)督主題模型,提出SLDA,實(shí)現(xiàn)有監(jiān)督學(xué)習(xí)。 作者:David M. Blei https://research./2016/09/show-and-tell-image-captioning-open.html 《Fast collapsed gibbs sampling for latent dirichlet allocation》:快速推理算法,在參數(shù)推理上提出更容易理解的方法。更加實(shí)用。事實(shí)上,由于方法相對(duì)更好理解,現(xiàn)在更多的主題模型都采用這種方法求解。 作者:I Porteous,D Newman,A Ihler A Asuncion P Smythhttps://www./publication/221653277_Fast_collapsed_Gibbs_sampling_for_latent_Dirichlet_allocation LDA-math-MCMC 和 Gibbs Sampling 簡(jiǎn)介:rickjin大神對(duì)馬爾科夫鏈蒙特卡洛采樣和吉布斯采樣的描述,講的非常清晰明白??梢詭椭蠹腋玫睦斫獠蓸印?nbsp;https:///2013/01/lda-math-mcmc-and-gibbs-sampling/ *用變分推理求解LDA模型的參數(shù) * 簡(jiǎn)介:LDA原文中采用的變分算法求解,想要了解變分算法可以看一下這篇文章。 作者:斯瑋Fantastic https://zhuanlan.zhihu.com/p/28794694 早期文本模型的簡(jiǎn)介 https://zhuanlan.zhihu.com/p/28777266 Gensim簡(jiǎn)介、LDA編程實(shí)現(xiàn)、LDA主題提取效果圖展 示https://zhuanlan.zhihu.com/p/28830480 圖模型學(xué)習(xí) http://blog.csdn.net/pipisorry/article/category/6241251 Gaussian LDA: Gaussian LDA簡(jiǎn)介, 介紹主題模型和詞向量結(jié)合的一些工作, 比較有意思,建議看一下 [http://blog.csdn.net/u011414416/article/details/51188483]
進(jìn)階論文如何計(jì)算兩個(gè)文檔的相似度(一) 簡(jiǎn)介:52nlp上的文章,從最簡(jiǎn)單的tf-idf到SVD和LSI再到) LDA,可以說是形成了一條邏輯線,一步一步說明算法的發(fā)展過程,同時(shí)也方便對(duì)比各種算法的優(yōu)缺點(diǎn)。另外,從實(shí)踐的角度出發(fā)。迅速上手!用到了python里的gensim,這是一個(gè)非常好用的庫,實(shí)踐必不可少。http://www./%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%80 如何計(jì)算兩個(gè)文檔的相似度(二) 從gensim最基本的安裝講起,然后舉一個(gè)非常簡(jiǎn)單的例子用以說明如何使用gensim,可以跟著教程做一下實(shí)驗(yàn),肯定會(huì)有更好地體會(huì)http://www./%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%BA%8C 文章說了很多實(shí)驗(yàn)的細(xì)節(jié),講了如何數(shù)據(jù)預(yù)處理,解決了很多理論類文章中不會(huì)提到的技術(shù)細(xì)節(jié)。NTLK是著名的Python自然語言處理工具包,在這也講了怎么去用這些工具。http://www./%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%89 A correlated topic model of science Blei的大作,引入了主題之間的關(guān)聯(lián)??紤]到了潛在主題的子集將是高度相關(guān)的。 http://www.cs./~blei/papers/BleiLafferty2007.pdf(ppt) http://www-users.cs./~banerjee/Teaching/Fall07/talks/Muhammed_slides.pdf Topic Models over Text Streams: A Study of Batch and Online Unsupervised Learning.文本流推理 作者:A Banerjee , S Basu http://www-users.cs./~banerjee/papers/07/sdm-topics-long.pdf Topical n-grams: Phrase and topic discovery, with an application to information retrieval 在LDA基礎(chǔ)上考慮了詞與詞之間的順序 作者:X Wang , A Mccallum , X Weihttp://www.cs./~xuerui/papers/ngram_tr.pdf Hierarchical Dirichlet processes. 基于DirichletProcess的變形,即HDP模型,可以自動(dòng)的學(xué)習(xí)出主題的數(shù)目。該方法:1、在一定程度之上解決了主題模型中自動(dòng)確定主題數(shù)目這個(gè)問題,2、代價(jià)是必須小心的設(shè)定、調(diào)整參數(shù)的設(shè)置,3、實(shí)際中運(yùn)行復(fù)雜度更高,代碼復(fù)雜難以維護(hù)。 所以在實(shí)際中,往往取一個(gè)折中,看看自動(dòng)確定主題數(shù)目這個(gè)問題對(duì)于整個(gè)應(yīng)用的需求到底有多嚴(yán)格,如果經(jīng)驗(yàn)設(shè)定就可以滿足的話,就不用采用基于非參數(shù)貝葉斯的方法了,但是如果為了引入一些先驗(yàn)只是或者結(jié)構(gòu)化信息,往往非參數(shù)是優(yōu)先選擇,例如樹狀層次的主題模型和有向無環(huán)圖的主題模型 作者:Yee Whye Michael I. Jordan J Beal David M. Bleihttps://people.eecs./~jordan/papers/hdp.pdf *Modeling online reviews with multi-grain topic models * 從用戶評(píng)論數(shù)據(jù)中進(jìn)行無監(jiān)督主題抽取,考慮了一個(gè)多級(jí)背景主題模型:詞~句子~段落~文檔,解決了傳統(tǒng)LDA模型提出的主題往往對(duì)應(yīng)品牌而不是可以ratable的主題。 作者:I Titov , R Mcdonaldhttp://delivery./10.1145/1370000/1367513/p111-titov.pdf A joint model of text and aspect ratings for sentiment summarization. 本文將一些具有結(jié)構(gòu)化信息的特征融入到主題模型中,具體來說,我們同時(shí)關(guān)聯(lián)兩個(gè)生成過程,一個(gè)就是文檔中詞的生成,另一個(gè)就是這些結(jié)構(gòu)化特征的生成。 作者:Titov , Ivan , McDonald , Ryanhttp://www./anthology/P08-1036 Comparing twitter and traditional media using topic models. 用于社交媒體研究的方法,提出Twtter-LDA,傳統(tǒng)LDA并不適用于短文本,這篇論文解決了這一缺點(diǎn)。 作者:WX Zhao J Jiang,J Weng, J H EP Lim https://link./chapter/10.1007%2F978-3-642-20161-5_34
更多Papers推薦Multi-modal Multi-view Topic-opinion Mining for Social Event Analysis. 將主題模型用于多媒體分析,同時(shí)考慮了opinion,view,collection等因素 作者:Shengsheng Qian Tianzhu Zhang Changsheng Xu http://delivery./10.1145/2970000/2964294/p2-qian.pdf TopicRNN: A Recurrent Neural Network with Long-Range Semantic Dependency RNN與主題模型結(jié)合,結(jié)合了主題模型的全局信息和RNN的局部特征。 作者:AB Dieng, C Wang, J Gao, J Paisley https:///pdf/1611.01702.pdf Cross-media Topic Detection with Refined CNN based Image-Dominant Topic Model CNN與主題模型結(jié)合 作者:Z Wang, L Li , Q Huanghttp://delivery./10.1145/2810000/2806309/p1171-wang.pdf Gaussian LDA for Topic Models with Word Embeddings word embedding 應(yīng)用于LDA變形 作者:R Das, M Zaheer, C Dyer http://rajarshd./papers/acl2015.pdf
一些主題模型的應(yīng)用場(chǎng)景Papers for NLPTopic modeling: beyond bag-of-words 為文本語料庫建模提供了一種替代方法。 作者:Hanna M. Wallach http://delivery./10.1145/1150000/1143967/p977-wallach.pdfhttps://people.cs./~wallach/talks/beyond_bag-of-words.pdf (ppt) Topical n-grams: Phrase and topic discovery, with an application to information retrieval 本文介紹了主題n-gram即一個(gè)發(fā)現(xiàn)主題以及主題短語的主題模型。 作者:Andrew McCallum, Xing Wei University of Massachusetts http://ieeexplore./stamp/stamp.jsp?arnumber=4470313 A topic model for word sense disambiguation 用WORDNET(LDAWN)開發(fā)LDA 作者:JL Boyd-Graber , DM Blei , X Zhu http://www./anthology/D07-1109
Papers for opinion miningTopic sentiment mixture: modeling facets and opinions in weblogs 定義了Weblogs主題情感分析的問題,并提出了一種概率模型來同時(shí)捕捉主題和情緒的混合。 作者:Qiaozhu Mei, Xu Ling, Matthew Wondra, Hang Su, Chengxiang Zhaihttp://delivery./10.1145/1250000/1242596/p171-mei.pdf A joint model of text and aspect ratings for sentiment summarization 提出一個(gè)統(tǒng)計(jì)模型,能夠在文本中發(fā)現(xiàn)相應(yīng)的主題,并從支持每個(gè)方面評(píng)級(jí)的評(píng)論中提取文本證據(jù)。 作者:Titov, Ivan, McDonald, Ryan http://www./anthology/P08-1036 Current State of Text Sentiment Analysis from Opinion to Emotion Mining 較新的文章,很全面的介紹了opinion挖掘的當(dāng)前狀況。 作者:OR Zaiane http://delivery./10.1145/3060000/3057270/a25-yadollahi.pdf
Papers for retrievalLDA-based document models for ad-hoc retrieval 在語言建??蚣軆?nèi)提出基于LDA的文檔模型,并對(duì)幾個(gè)TREC集合進(jìn)行評(píng)估。 作者:X Wei , WB Crofthttp://delivery./10.1145/1150000/1148204/p178-wei.pdf Probabilistic Models for Expert Finding 設(shè)計(jì)算法找到某個(gè)領(lǐng)域的專家。 作者:Hui Fang ChengXiang Zhai https://link./chapter/10.1007%2F978-3-540-71496-5_38 Thread-based probabilistic models for expert finding in enterprise Microblogs. 提出一個(gè)概率文件候選模型,該模型可以在企業(yè)微博中找到更多專家。 作者:Zhe Xu Jay Ramanathan Computer Science and Engineering, The Ohio State University, Columbus, OH 43210, United States https://ac./S0957417415004406/1-s2.0-S0957417415004406-main.pdf
Papers for information extractionEmploying Topic Models for Pattern-based Semantic Class Discovery 從語義類的角度出發(fā),做信息提取。具體可以參考ppt 作者:Huibin Zhang Nankai University Mingjie Zhu University of Science and Technology of China huming Shi Ji-Rong Wen Microsoft Research Asiahttp://www./anthology/P09-1052https://pdfs./604b/c2fb02b48d6d106215955a6a30629314df14.pdf (ppt) Combining Concept Hierarchies and Statistical Topic Models 提供一個(gè)通用的數(shù)據(jù)驅(qū)動(dòng)框架,用于從大量文本文檔中自動(dòng)發(fā)現(xiàn)高級(jí)知識(shí)。 作者:C Chemudugunta , P Smyth , M Steyvers http://delivery./10.1145/1460000/1458337/p1469-chemudugunta.pdf An Unsupervised Framework for Extracting and Normalizing Product Attributes from Multiple Web Sites 開發(fā)了一個(gè)無監(jiān)督的框架,用于從源自不同站點(diǎn)的多個(gè)網(wǎng)頁同時(shí)提取和歸一化產(chǎn)品的屬性。 作者:Tak-Lam Wong Wai Lam The Tik-Shun Wong The Chinese University of Hong Kong, Hong Kong, Hong Konghttp://delivery./10.1145/1400000/1390343/p35-wong.pdf
TutorialsCourses 哥倫比亞大學(xué)給出的教程,David M. Blei的課程http://www.cs./~blei/courses.html LDA數(shù)學(xué)八卦 傳說中的“上帝擲骰子”的來源之處。這篇文章是一個(gè)連載的科普性博客,作者是rickjin,文章分為7個(gè)章節(jié),主要5個(gè)章節(jié)講得是Gamma函數(shù)、Beta/Dirichlet函數(shù)、MCMC和Gibbs采樣、文本建模、LDA文本建模,對(duì)于想要了解和LDA的同學(xué)來說,是一篇很好的入門教程,建議結(jié)合Blei的開山之作一起看。 作者:Rickjin 騰訊的rickjin大神http://download.csdn.net/download/happyer88/8791493 LDA漫游指南 完全明白主題模型的必備之路:一份從數(shù)學(xué)基礎(chǔ)開始講的教程,與LDA數(shù)學(xué)八卦可以互為補(bǔ)充。 作者:馬晨 清華大學(xué)在讀博士,畢業(yè)于北京郵電大學(xué)碩士,曾任新浪網(wǎng)公司自然語言處理算法工程師。 https://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a.html### MIT自然語言處理第三講:概率語言模型 很系統(tǒng)的英文教程,這里給出了第一部分,后邊幾部分在52nlp也有翻譯,可以對(duì)照去看看。 作者:Regina Barzilay(MIT,EECS Department, November 15, 2004) /52nlp上的翻譯版本 http://people.csail./regina/6881/http://www./mit-nlp-third-lesson-probabilistic-language-modeling-first-part 斯坦福大學(xué)深度學(xué)習(xí)與自然語言處理第二講:詞向量 這里給出了整個(gè)深度學(xué)習(xí)與自然語言處理的連接。很適合想要做主題模型與深度學(xué)習(xí)相結(jié)合的人看。 作者:Richard Socher 斯坦福大學(xué)青年才俊 http://cs224d./ topic_modeling_tutorial 除了基本的概念還包括在python上實(shí)現(xiàn)的流程。指導(dǎo)編程實(shí)現(xiàn)。 作者:piskvorky https://github.com/piskvorky/topic_modeling_tutorial
綜述Probabilistic Topic Models: Origins and Challenges 權(quán)威綜述,介紹了很多基本的主題模型,還包括這些模型之間漸進(jìn)的關(guān)系 作者:David M. Bleihttp://www.cs./~blei/talks/Blei_Topic_Modeling_Workshop_2013.pdf Probabilistic Topic Models 作者:David M. Bleihttp://www.cs./~blei/talks/Blei_MLSS_2012.pdf 通俗理解LDA主題模型 相對(duì)簡(jiǎn)單一些的中文綜述,可以幫助讀者迅速理解各種基本概念。 作者:v_JULY_v http://blog.csdn.net/v_july_v/article/details/41209515
視頻教程Probabilistic topic models http://delivery./10.1145/2110000/2107741/tutorial-6-part1.mp4 Probabilistic topic models http://delivery./10.1145/2110000/2107741/tutorial-6-part2.mp4 a 2008 talk on dynamic and correlated topic models applied to the journal Science .http://www.cs./~blei/talks/Blei_Science_2008.pdf
代碼Topic modeling software https://github.com/Blei-Lab blei的github主頁,有大量代碼 lda-c(Latent Dirichlet allocation)LDA代碼 http://www.cs./~blei/lda-c/index.html Supervised topic models for classification 有監(jiān)督LDAhttp://www.cs./~chongw/slda/ R package for Gibbs sampling in many models 吉布斯采樣代碼 https://cran./web/packages/lda/ online lda 在線lda http://www.cs./~blei/downloads/onlineldavb.tar Online inference for the HDP Hierarchical Dirichlet processes.http://www.cs./~chongw/software/onlinehdp.tar.gz Collaborative modeling for recommendation 關(guān)聯(lián)主題模型http://www.cs./~chongw/citeulike/ Dynamic topic models and the influence model 動(dòng)態(tài)主題模型https://code.google.com/archive/p/princeton-statistical-learning/downloads
領(lǐng)域?qū)<?/h3>David M. Blei Ivan Titov Иван Титов 圖模型方面的專家,有許多高水平論文。博客中有很多好的資源可以使讀者了解主題模型的發(fā)展。 http://www./ Eric xing My principal research interests lie in the development of machine learning and statistical methodology, andlarge-scale computational system and architecture, for solving problems involving automated learning, reasoning, and decision-making in high-dimensional, multimodal, and dynamic possible worlds in artificial, biological, and social systems. http://www.cs./~epxing/
朱軍 My research focuses on developing statistical machine learning methods to understand complex scientific and engineering data. My current interests are in latent variable models, large-margin learning, Bayesian nonparametrics, and deep learning. Before joining Tsinghua in 2011, I was a post-doc researcher and project scientist at the Machine Learning Department in Carnegie Mellon University.http://ml.cs./~jun/index.shtml
Alexander J. Smola 亞馬遜云服務(wù)(AWS),機(jī)器學(xué)習(xí)負(fù)責(zé)人
http://alex./ 2008 年,他加入雅虎,后于 2012 年加入谷歌從事研究工作。他是加州大學(xué)伯克利分校的兼職教授,目前擔(dān)任卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)教授。2015 年,他與人聯(lián)合創(chuàng)立了 Marianas 實(shí)驗(yàn)室。2016 年,Alex 加入亞馬遜。迄今為止共發(fā)表超過 200 篇論文并參與編寫 5 本學(xué)術(shù)專著。他的研究興趣包括:算法的可擴(kuò)展性,SVM、高斯過程和條件隨機(jī)場(chǎng)等核方法,統(tǒng)計(jì)建模以及用戶建模、文檔分析、時(shí)序模型等各種機(jī)器學(xué)習(xí)應(yīng)用。
他最近的一篇工作比較有意思, Latent LSTM Allocation: Joint Clustering and Non-Linear Dynamic Modeling of Sequence Data 把LDA 和 LSTM 結(jié)合一起,贊。
|