隐含狄利克雷分布
统计学术语
隐含狄利克雷分布(Latent Dirichlet Allocation,LDA),是一种主题模型(topic model),它可以将文档集中每篇文档的主题按照概率分布的形式给出。
历史
LDA首先由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。
理论与算法
模型
LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:
从狄利克雷分布中取样生成文档i的主题分布
从主题的多项式分布中取样生成文档i第j个词的主题
从狄利克雷分布中取样生成主题的词语分布
从词语的多项式分布中采样最终生成词语
因此整个模型中所有可见变量以及隐藏变量的联合分布
最终一篇文档的单词分布的最大似然估计
根据的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。
求解
变分贝叶斯估计(variational Bayesian inference)
LDA在提出之初,被设计为使用变分贝叶斯估计,即变分贝叶斯EM进行求解。
马尔可夫链蒙特卡罗(Markov chain Monte Carlo, MCMC)
LDA可以使用MCMC中常见的使用吉布斯采样(Gibbs Sampling)算法进行求解,其过程如下:
性质
LDA是常见的主题模型之一,是一类无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。
应用
LDA在自然语言处理领域,包括文本挖掘(text mining)及其下属的文本主题识别、文本分类以及文本相似度计算方面有应用。
参考资料
最新修订时间:2024-08-29 17:19
目录
概述
历史
理论与算法
参考资料