您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. kmeans中文文本聚类java源码(包括对文本tf,idf的计算,文本相似度计算)

  2. 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现
  3. 所属分类:其它

    • 发布日期:2009-05-08
    • 文件大小:9216
    • 提供者:kaiyan0308
  1. 蛙蛙教你文本聚类(WawaTextCluster.zip)

  2. 文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。
  3. 所属分类:Web开发

    • 发布日期:2009-07-03
    • 文件大小:16384
    • 提供者:bluecyclone
  1. 基于文本集密度的特征词选择与权重计算方法

  2. 数据挖掘文献,分词权重计算
  3. 所属分类:专业指导

    • 发布日期:2008-03-24
    • 文件大小:192512
    • 提供者:linseng129
  1. kmeans算法文本聚类java源码(分词,TF/IDF等)

  2. 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法,整个工程可以直接运行,
  3. 所属分类:Java

    • 发布日期:2011-07-03
    • 文件大小:29696
    • 提供者:wrn_str
  1. TF*IDFjava实现

  2. 该文档是文本分类中权重计算的算法,即TF*idf算法的源代码,希望对您有所帮助
  3. 所属分类:Java

    • 发布日期:2011-12-28
    • 文件大小:43008
    • 提供者:abclinlin2011
  1. 特征权重的计算方法

  2. 文档介绍了文本分类中特征值权重的计算方法,对基于vsm的文本分类有很大帮助
  3. 所属分类:网络监控

    • 发布日期:2011-12-28
    • 文件大小:3145728
    • 提供者:abclinlin2011
  1. tfi-df计算特征词权重代码

  2. 这是一个tfi-df程序,实现文本特征词的权重计算。
  3. 所属分类:C++

    • 发布日期:2012-03-01
    • 文件大小:1048576
    • 提供者:yxj6073
  1. 蛙蛙教我学习文本分类

  2. 文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。 思路:计算两篇文档的相似度,最简单的做法就是用提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离。能计算两个文本间的距离后,用标准
  3. 所属分类:C#

    • 发布日期:2013-03-11
    • 文件大小:16384
    • 提供者:makangmk
  1. 文本聚类算法实现

  2. k均值算法文本聚类的具体实现过程 思路:计算两篇文档的相似度,最简单的做法就是用提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离。能计算两个文本间的距离后,用标准的k-means算法就可以实现文本聚类了。
  3. 所属分类:C#

    • 发布日期:2013-08-16
    • 文件大小:16384
    • 提供者:q383965374
  1. 文本挖掘tmSVM开源项目包含Python和Java两种版本带参考文档

  2. 文本挖掘tmSVM开源项目集成libSVM和liblinear包含Python和Java两种版本带PDF源码参考文档 简介 文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。而文本分类是文本挖掘中一个非常重要的手段与技术。现有的分类技术都已经非常成熟,SVM、KNN、Decision Tree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡
  3. 所属分类:Python

    • 发布日期:2014-02-23
    • 文件大小:3145728
    • 提供者:vcfriend
  1. 基于依存句法分析的多主题文本摘要研究.pdf

  2. 基于文本关系图摘要是当下多主题文本摘要中常用方法,针对该方法的不足,对其进行了改进。首先,由 于基于词频统计的文本相似度计算方法对句子作用有限,引入依存句法分析,通过挖掘语义信息来扩展句子特征 项,提高句子相似度计算准确性。其次,选择基于图结构的无尺度图K-中心点聚类算法对文本关系图进行聚类分 析,提高主题挖掘的准确性。最后,综合考虑句子相似度和位置信息来计算句子权重,提高摘要句抽取的准确性。 最后用实验证明该改进方法的有效性。
  3. 所属分类:Java

    • 发布日期:2014-10-17
    • 文件大小:1048576
    • 提供者:u013085605
  1. 遗忘算法(新闻相似度)演示程序.rar

  2. 遗忘算法演示程序及源码,功能包括词库生成、分词、词权重计算。是CSDN博文《非主流自然语言处理——遗忘算法系列》的配套资源。作者老憨欢迎交流讨论。
  3. 所属分类:C#

    • 发布日期:2015-12-07
    • 文件大小:33554432
    • 提供者:gzdmcaoyc
  1. 文本分类中词语权重计算方法的改进及应用

  2. 这是一篇硕士论文,文中提出了改进权值的方法,并在不同的分类算法里进行了验证,证明结果是可行的。
  3. 所属分类:其它

    • 发布日期:2009-04-23
    • 文件大小:679936
    • 提供者:wxmcool
  1. 搜狗文本分类语料库-中文文本分类

  2. 实现文本分类的主要包括几个步骤文本分词处理,特征选择,特征权重计算,文本特征向量表示,基于训练文本的特征向量数据训练SVM模型,对于测试集进行特征向量表示代入训练得到的svm模型中进行预测分类,达到93%的准确率
  3. 所属分类:机器学习

    • 发布日期:2019-02-25
    • 文件大小:27262976
    • 提供者:wydewy
  1. 一种改进的面向移动数据安全检测的文本分类模型

  2. 随着移动互联网应用的不断普及,移动终端承载了大量的数据交互业务与应用,移动数据的安全问题日益凸显。基于C4.5决策树算法对移动数据进行文本分类检测,实现恶意代码分析。传统的C4.5文本分类模型中,测试属性选择未考虑属性之间的影响,因此提出了一种改进的基于Boosting算法的C4.5决策树文本分类模型。该模型在衡量被测属性最优弱假设的重要性时,引入Boosting的权重系数,每次迭代计算结束后,自适应调整权重值,在降低特征子集属性冗余度的同时,提高了分类模型的鲁棒性。实验结果表明,改进的文本分类
  3. 所属分类:其它

    • 发布日期:2020-10-16
    • 文件大小:346112
    • 提供者:weixin_38680308
  1. TransferCalculator:一个用Python编写的程序,它从文本文件中读取数据,以从FIFA游戏中的玩家那里获取统计信息,然后根据我为他们创建的权重计算其价格,从而更重要地根据位置为某些统计信息赋值-源码

  2. TransferCalculator 一个用Python编写的程序,它从文本文件读取以从FIFA游戏中的玩家那里获取统计信息,然后根据我为他们创建的权重计算其价格,从而更重要地根据位置对某些统计信息进行评估。 目前正在进行中。 Fix Height是我创建的一个小程序,用于获取高度统计信息并将其从英尺转换为厘米。
  3. 所属分类:其它

    • 发布日期:2021-03-22
    • 文件大小:389120
    • 提供者:weixin_42160376
  1. Python自然语言处理的textrank文本分析,循环绘制分院各教授研究方向和兴趣的词云图.zip

  2. (粉丝可下载)为了研究某分院教师的学术成果、研究兴趣、研究方向,我们以广西师范大学的两个分院教师在知网所发表论文的摘要数据分析学术成果、关键词数据分析研究方向、研究方向文本数据分析研究方向,具体用textrank算法计算出研究方向词权重,根据词权重绘制词云图进行文本分析。具体绘制教师论文摘要数据权重最高的40个词的词云图,并输出各教师的基本信息,根据结果我们发现各教授的基本信息与词云图文本高度一致,可见分词的效果非常好,可以分析出各分院教师的学术成果、研究兴趣、研究方向。
  3. 所属分类:Python

    • 发布日期:2021-03-12
    • 文件大小:9437184
    • 提供者:weixin_45934622
  1. 自动汇总:新闻文本自动摘要,以Textrank为基础,合并标题特征,单句位置特征,重要实体特征,线索词特征,做句子的综合权重计算,并使用MMR算法,兼顾自动汇总的主题相关性和摘要多样性-源码

  2. 自动汇总 新闻文本自动摘要,以Textrank为基础,合并标题特征,单句位置特征,重要实体特征,线索词特征,做句子的综合权重计算,并使用MMR算法,兼顾自动摘要的主题相关性和摘要。 查看新闻摘要示例
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:26624
    • 提供者:weixin_42120405
  1. 基于改进的Jaccard系数文档相似度计算方法

  2. 文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域, 而传统的文本相似度计算方法中的特征.项提取与分词环节过于冗杂, 而且元素的随机挑选也会产生权重的不确定性. 为了解决传统方法的不足, 提出一种.基于改进的 Jaccard 系数确定文档相似度的方法, 该算法综合考虑了各元素、样本在文档中的权重及其对多个文档.相似度的贡献程度. 实验结果表明, 基于改进的 Jaccard 系数的文档相似度算法具有实效性并且能够得到较高的准.确率, 适用于各种长度的中英文文档, 有效地解决现有技术中存在的文
  3. 所属分类:其它

    • 发布日期:2021-02-07
    • 文件大小:902144
    • 提供者:weixin_38623819
  1. THUCTC:高效的中文文本分类器-源码

  2. THUCTC:一个高效的中文文本分类工具 目录 项目介绍 THUCTC(THU中文文本分类)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练,评估,分类功能。 ,特征降维,分类模型学习三个步骤。如何选择合适的文本特征并进行降维,是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验,在THUCTC中选取二字串bigram作为特征单元,特征降维方法为卡方,权重计算方法为tfidf,分类模型使用的是LibSVM或LibLinear。T
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:1048576
    • 提供者:weixin_42099942
« 12 3 4 »