WordEmbedding-WikiChinese：基于中文维基百科文本数据训练词向量-源码基于中文

文件名称: WordEmbedding-WikiChinese：基于中文维基百科文本数据训练词向量-源码

所属分类: 其它

开发工具:

文件大小: 4kb

下载次数: 0

上传时间: 2021-02-19

提供者: weixin_********

下载 (4kb)

不能下载？报告错误

详细说明：基于中文维基百科文本数据训练词向量一，数据获取本词向量利用的是中文维基百科的语料进行训练。语料地址：（大小1.16G）也可以在我的网盘上下载：链接：提取码：ihu4 二，数据转换原数据的格式是xml，我们可以将其转换为txt。这里使用的是gensim自带的WikiCorpus，首先读取xml文件到input_file中，然后其中的get_texts方法会生成一个get_texts器，每一个继承蕴含了一篇文章，这样我们就可以将其写入新的txt文件中了。三，繁体数据转换为简体数据该Wiki数据是繁体中文数据，我们要把他们转换为简体中文数据。利用zhconv包。四，分词利用结巴分词。五，去除非中文词一些单词中会包含非中文的词，我们要利用正则表达式将该词移除。判断是否中文词的正则表达式为： ^[\u4e00-\u9fa5]+$ 六，词向量训练利用from gens

(系统自动生成,下载前可以参看下载内容)