谈起LDA,自然需要引入pLSA。pLSA是用一个生成模型来建模文章的生成过程。假设有K个主题,M篇文章;对语料库中的任意文章d,假设该文章有N个词,则对于其中的每一个词,我们首先选择一个主题z,然后在当前主题的基础上生成一个词w。生成主题z和词w的过程遵照一个确定的概率分布。设在文章d中生成主题z的概率为[公式],在选定主题的条件下生成词w的概率为[公式],则给定文章d,生成词w的概率可以写成:LDA可以看作是pLSA的贝叶斯版本,其文本生成过程与pLSA基本相同,不同的是为主题分布和词分布分