您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Radical Embedding: Delving Deeper to Chinese Radicals

  2. 该论文中展示了“字根嵌入”技术的实际效果。运用新方式计算后,机器在处理中文分词、短文本分类及网页排序方面的效果大幅提升,这在某种程度上证实了“字根嵌入”可以作为中文自然语言处理的基本单位的可能。
  3. 所属分类:深度学习

    • 发布日期:2018-03-20
    • 文件大小:371712
    • 提供者:qj8380078
  1. CRF,LSTM,最大后向匹配法实现中文分词

  2. 3种中文分词方法:最大后向匹配法,CRF,LSTM。其中LSTM又用了三种方法输入,glove向量,Word2vec向量,还有将字映射成整数再通过embedding层映射成字向量作为输入。还包含中文分词的评分脚本。
  3. 所属分类:深度学习

    • 发布日期:2018-06-18
    • 文件大小:14680064
    • 提供者:sixi5498
  1. 基于多元特征融合和LSTM神经网络的中文评论情感分析.caj

  2. 本文的主要研究工作如下: (1)针对文本情感分析中对文本表示时遇到的维度过高和语义不相关 的问题,本文采用 word embedding 机制,通过神经网络语言模型对大量评 论文本进行训练,并在此基础上通过 distributed representation 的方式表示文 本,从而将文本映射为一个低维实数向量。这种文本表示方法同时也可以 表达文本的语义信息,有助于神经网络模型对文本更好地理解。 (2)针对情感分析任务的特殊性,本文提出了一种新的文本表示方法- ——多元特征词向量。这种表示方
  3. 所属分类:深度学习

    • 发布日期:2020-09-08
    • 文件大小:1048576
    • 提供者:fengliren
  1. Keras—embedding嵌入层的用法详解

  2. 最近在工作中进行了NLP的内容,使用的还是Keras中embedding的词嵌入来做的。 Keras中embedding层做一下介绍。 中文文档地址:https://keras.io/zh/layers/embeddings/ 参数如下: 其中参数重点有input_dim,output_dim,非必选参数input_length. 初始化方法参数设置后面会单独总结一下。 demo使用预训练(使用百度百科(word2vec)的语料库)参考 embedding使用的demo参考: def cre
  3. 所属分类:其它

    • 发布日期:2020-12-17
    • 文件大小:75776
    • 提供者:weixin_38642636
  1. python获取txt文件词向量过程详解

  2. 在读取https://github.com/Embedding/Chinese-Word-Vectors中的中文词向量时,选择了一个有3G多的txt文件,之前在做词向量时用的是word2vec,所以直接导入模型然后indexword即可。 因为这是一个txt大文件,尝试了DataFrame,np.loadtxt等,都没有成功,其中主要遇到的问题是: 如何读取完整的大文件,而不会出现内存不足memery error等问题 将读取出来的文件,保存为npy文件 根据词找到对应的向量 解决办
  3. 所属分类:其它

    • 发布日期:2021-01-01
    • 文件大小:53248
    • 提供者:weixin_38571104
  1. python gensim使用word2vec词向量处理中文语料的方法

  2. word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高。 词向量:用Distributed Representat
  3. 所属分类:其它

    • 发布日期:2020-12-26
    • 文件大小:188416
    • 提供者:weixin_38637764
  1. WordEmbedding-WikiChinese:基于中文维基百科文本数据训练词向量-源码

  2. 基于中文维基百科文本数据训练词向量 一,数据获取 本词向量利用的是中文维基百科的语料进行训练。 语料地址: (大小1.16G) 也可以在我的网盘上下载:链接: 提取码:ihu4 二,数据转换 原数据的格式是xml,我们可以将其转换为txt。 这里使用的是gensim自带的WikiCorpus,首先读取xml文件到input_file中,然后其中的get_texts方法会生成一个get_texts器,每一个继承蕴含了一篇文章,这样我们就可以将其写入新的txt文件中了。 三,繁体数据转换为简体数据
  3. 所属分类:其它

    • 发布日期:2021-02-19
    • 文件大小:4096
    • 提供者:weixin_42099302