history-newpaper-topic-analysis：使用k均值，pLSA和LDA分析美国

文件名称: history-newpaper-topic-analysis：使用k均值，pLSA和LDA分析美国和国家公报-源码

所属分类: 其它

开发工具:

文件大小: 485mb

下载次数: 0

上传时间: 2021-02-10

提供者: weixin_********

下载 (485mb)

不能下载？报告错误

详细说明：该项目的目的是从历史报纸中提取主题。阅读历史报纸以研究历史是困难的，因为其庞大的数量证明对人类读者构成挑战。机器学习算法可以从这些报纸自动生成主题，并可以节省大量时间。结果保存在top_words文件夹中。这是每个Python脚本的简短描述。 corpus.py：用于使用拼写检查，词干分析和频次上限来预处理原始数据。然后保存将语料库转换为文档词矩阵。输出保存在“ vocabulary_files”文件夹中。 train.py [取决于k_means.py，pLSA.py和lda.py，每个文件实现相应的训练算法]：训练模型并将结果保存在“模型”文件夹中。目标函数的值和执行时间被绘制并保存在“ stats”文件夹中。每个主题中最重要的单词都保存在“ top_words”文件夹中。所有训练算法都是词袋算法。 topic_coherence.py：计算每个模

(系统自动生成,下载前可以参看下载内容)