您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. kmeans中文文本聚类java源码(包括对文本tf,idf的计算,文本相似度计算)

  2. 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现
  3. 所属分类:其它

    • 发布日期:2009-05-08
    • 文件大小:9216
    • 提供者:kaiyan0308
  1. 文本相似度计算--余弦定理和广义Jaccard系数

  2. 网上找的资源,给大家共享一下。 文本相似度计算--余弦定理和广义Jaccard系数
  3. 所属分类:专业指导

    • 发布日期:2010-01-27
    • 文件大小:3072
    • 提供者:sccgood
  1. 文本相似度的计算.pdf

  2. 文本相似度的计算在数字图书馆系统里有着广泛的应用前景。该文采用余弦系数和向量空间模型计算文本相似度。
  3. 所属分类:专业指导

    • 发布日期:2010-06-02
    • 文件大小:81920
    • 提供者:huxiaobing1989
  1. 空间向量模型比较文本相似度

  2. 利用空间向量模型比较两文本的文本相似度,请自行Google并下载下载,nltk包,port stemming算法
  3. 所属分类:其它

    • 发布日期:2011-02-18
    • 文件大小:2048
    • 提供者:zqnzqn
  1. 基于汉明距离的文本相似度计算

  2. 传统的文本分类中相似度的计算, 是根据欧氏空间中向量之间夹角的余弦值来表征的, 它根据余弦值的大小来 反映文本之间的相互关系。该文则首先建立文本集与码字集之间的 #.# 对应关系,然后借用编码理论中汉明距离的概 念, 由汉明距离的计算公式, 得到了一种全新的文本相似度的计算方法, 与传统的方法相比较, 它具有简便, 快速等优点。
  3. 所属分类:IT管理

    • 发布日期:2012-01-19
    • 文件大小:100352
    • 提供者:gongdy
  1. 余弦相似度计算代码

  2. 文档所给的是余弦相似度计算代码,在文本分类中用来计算相似度值,以此对文本分类
  3. 所属分类:Java

    • 发布日期:2012-03-22
    • 文件大小:2048
    • 提供者:abclinlin2011
  1. 蛙蛙教我学习文本分类

  2. 文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。 思路:计算两篇文档的相似度,最简单的做法就是用提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离。能计算两个文本间的距离后,用标准
  3. 所属分类:C#

    • 发布日期:2013-03-11
    • 文件大小:16384
    • 提供者:makangmk
  1. 余弦相似度算法实现

  2. 该算法是用于文本相似的判定,同时也可以判定两个用户的相似性。算法是以C#实现的,封装完毕,如有急要可以留言哦
  3. 所属分类:C#

    • 发布日期:2013-06-07
    • 文件大小:25600
    • 提供者:wuqiang20081990
  1. 文本相似度系统-java版本

  2. java实现的文本相似度系统,使用向量空间模型以及余弦相似度距离公式,实测可以实现2篇文本的相似度计算且有一定的效果。
  3. 所属分类:Java

    • 发布日期:2017-01-20
    • 文件大小:48234496
    • 提供者:u013473512
  1. 基于汉明距离的文本相似度计算

  2. 传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来 反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概 念,由汉明距离的计算公式,得到了一种全新的文本相似度的计算方法,与传统的方法相比较,它具有简便,快速等优点。
  3. 所属分类:专业指导

  1. 基于JAVA的文本搜索引擎的设计与实现

  2. 本文主要是承接上一个项目文本预处理(资源中已经给出)的数据来作为支撑进行设计与实现的文本搜索引擎,采用的是Lucene工具包来进行实现的,同时还进行了余弦相似度的检测以及K-Means聚类分析,本报告是比较详细的给出了设计与实现步骤以及源代码。 如果需要具体的项目文件以及数据的请加QQ:404125822,
  3. 所属分类:Java

    • 发布日期:2018-06-25
    • 文件大小:1048576
    • 提供者:huacode
  1. 基于汉明距离的文本相似度计算_张焕炯.pdf

  2. 传统的文本分类中相似度的计算, 是根据欧氏空间中向量之间夹角的余弦值来表征的, 它根据余弦值的大小来反映文本之间的相互关系。 该文则首先建立文本集与码字集之间的 #.# 对应关系, 然后借用编码理论中汉明距离的概念, 由汉明距离的计算公式, 得到了一种全新的文本相似度的计算方法, 与传统的方法相比较, 它具有简便, 快速等优点。
  3. 所属分类:机器学习

    • 发布日期:2020-04-18
    • 文件大小:99328
    • 提供者:weixin_39164435
  1. 文本余弦相似度

  2. 文本余弦相似度
  3. 所属分类:Java

    • 发布日期:2016-05-04
    • 文件大小:7168
    • 提供者:bingbingzyb
  1. 一种面向科技项目文本的相似度度量方法

  2. 现有的文本相似度度量方法主要采用TF-IDF方法,把文本建模为词频向量,但未考虑文本的结构特征。现将文本的结构特征和TF-IDF方法进行融合,提出了一种面向科技项目文本的相似度度量方法。该方法首先对文本进行预处理,其次根据文本的结构特征提取模块文本,然后使用TF-IDF方法提取每个模块文本的TOP-N关键词, 作为模块文本的特征向量表示,最后使用余弦聚类计算文本的相似度。实验结果表明,在电力行业的科技项目文档数据集上,所提方法优于TF-IDF方法。
  3. 所属分类:其它

    • 发布日期:2020-10-15
    • 文件大小:49152
    • 提供者:weixin_38659248
  1. .NET下文本相似度算法余弦定理和SimHash浅析及应用实例分析

  2. 主要介绍了.NET下文本相似度算法余弦定理和SimHash浅析及应用,实例形式详细讲述了相似度算法余弦定理和SimHash的原理与用法,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-10-24
    • 文件大小:68608
    • 提供者:weixin_38660108
  1. [文本语义相似] 基于bow的余弦距离

  2. 文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像 对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍 基于bow的余弦距离计算相似度。 本节将介绍两种实现:基于sklearn  和 基于gensim 基于sklearn的方式如下: import os import jieba import pic
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:29696
    • 提供者:weixin_38571878
  1. [文本语义相似] 基于ngram-tf-idf的余弦距离

  2. 文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像 对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍 基于ngram-tf-idf的余弦距离计算相似度。 本节将介绍两种实现:基于sklearn  和 基于gensim 基于sklearn的方式如下: import os import re impo
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:30720
    • 提供者:weixin_38751014
  1. .NET下文本相似度算法余弦定理和SimHash浅析及应用实例分析

  2. 本文实例讲述了.NET下文本相似度算法余弦定理和SimHash浅析及应用。分享给大家供大家参考。具体分析如下: 余弦相似性 原理:首先我们先把两段文本分词,列出来所有单词,其次我们计算每个词语的词频,最后把词语转换为向量,这样我们就只需要计算两个向量的相似程度.   我们简单表述如下   文本1:我/爱/北京/天安门/ 经过分词求词频得出向量(伪向量)  [1,1,1,1]   文本2:我们/都爱/北京/天安门/ 经过分词求词频得出向量(伪向量)  [1,0,1,2]   我们可以把它们想象成空
  3. 所属分类:其它

    • 发布日期:2021-01-02
    • 文件大小:73728
    • 提供者:weixin_38559203
  1. text2vec:text2vec,中文文本到vetor。(文本向量化表示工具,包括词向量化,句子向量化,句子相似度计算)-源码

  2. text2vec text2vec,中文文本给vetor。(文本向量化表示工具,包括词向量化,句子向量化) 特征 文本向量表示 字词粒度,通过腾讯AI Lab开放式的大规模扩展中文 (文件名:light_Tencent_AILab_ChineseEmbedding.bin密码:tawe),获取字词的word2vec矢量表示。 句子粒度,通过求句子中所有单词词嵌入的预先计算得到。 篇章粒度,可以通过gensim库的doc2vec得到,应用替代,本项目不实现。 文本相似度计算 基准方法,估计两个句
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:144384
    • 提供者:weixin_42149145
  1. 相似度:相似度:相似度计算工具包,java编写。用于词,短语,句子,词法分析,情感分析,语义分析等相关的相似度计算-源码

  2. 相似 适用词,语法,句子,词法分析,情感分析,语义分析等相关的相似度计算。 相似度是由一系列算法组成的Java版相似度计算工具包,目标是传播自然语言处理中相似度计算方法。相似度是工具实用,性能高效,架构清晰,语料时新,可自定义的特点。 相似性提供下列功能: 词相似度计算 词林编码法相似度 汉语语义法相似度 知网词相似度 字面编辑距离法 初步相似度计算 简单而言相似度 句子相似度计算 词性和词序结合法 编辑距离算法 Gregor编辑距离法 优化编辑距离法 文本相似度计算 余弦相似度 编辑距离算
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:23068672
    • 提供者:weixin_42139357
« 12 3 »