您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. kmeans中文文本聚类java源码(包括对文本tf,idf的计算,文本相似度计算)

  2. 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现
  3. 所属分类:其它

    • 发布日期:2009-05-08
    • 文件大小:9216
    • 提供者:kaiyan0308
  1. 基于VSM的中文文本分类系统的设计与实现.pdf

  2. 摘 要: 文本分类是指在给定分类体系下, 根据文本的内容 自动确定文本类别的过程。该文阐述了一个基于向量空间模 型的中文文本分类系统的设计和实现。对文本分类系统的系 统结构、预处理、特征提取、训练算法、分类算法等进行了详 细介绍。引入标题权重系数改进词语权重, 并提出了一种新 的分类算法。实验测试结果表明查全率和准确率均达到 90 %左右, 而且标题权重的引入和新分类算法的实施有效 地改善了分类性能。
  3. 所属分类:其它

    • 发布日期:2010-01-24
    • 文件大小:263168
    • 提供者:goodskyfly_1876
  1. svmcls文本分类程序(含C++源代码+语料库)完整版

  2. svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计,文本证据权重,右半信息增益,分类方法包括支持向量机SVM和K近邻KNN,由李荣陆老师于2004年开发完成。 网上流传很多版本的svmcls文本分类程序,但几乎全部都是不能编译通过的,有些是缺少xercesc文件夹,有些是缺少xerces-c_2_2_0D.dll,有些是缺少分词
  3. 所属分类:C

    • 发布日期:2010-04-30
    • 文件大小:19922944
    • 提供者:moxibingdao
  1. SVMCLS 文本自动分类器(可编译Release完整版)--李荣陆

  2. 之前的最好资源描述如下: svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计,文本证据权重,右半信息增益,分类方法包括支持向量机SVM和K近邻KNN,由李荣陆老师于2004年开发完成。 网上流传很多版本的svmcls文本分类程序,但几乎全部都是不能编译通过的,有些是缺少xercesc文件夹,有些是缺少xerces-c_2_2_0
  3. 所属分类:C

    • 发布日期:2010-09-21
    • 文件大小:9437184
    • 提供者:superyangtze
  1. 自然语言理解——文本分类系统

  2. 本资源提供了文本分类的c#源代码,使用了特征权重法,对大量的训练数据进行训练,并对提供了测试数据集,是自然语言理解和搜索引擎方面的很好的学习资源
  3. 所属分类:C#

    • 发布日期:2011-06-21
    • 文件大小:3145728
    • 提供者:wanglili8773
  1. kmeans算法文本聚类java源码(分词,TF/IDF等)

  2. 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法,整个工程可以直接运行,
  3. 所属分类:Java

    • 发布日期:2011-07-03
    • 文件大小:29696
    • 提供者:wrn_str
  1. 基于层次特征词权重的文本分类方法

  2. 基于层次特征词权重的文本分类方法
  3. 所属分类:专业指导

  1. TF*IDFjava实现

  2. 该文档是文本分类中权重计算的算法,即TF*idf算法的源代码,希望对您有所帮助
  3. 所属分类:Java

    • 发布日期:2011-12-28
    • 文件大小:43008
    • 提供者:abclinlin2011
  1. 特征权重的计算方法

  2. 文档介绍了文本分类中特征值权重的计算方法,对基于vsm的文本分类有很大帮助
  3. 所属分类:网络监控

    • 发布日期:2011-12-28
    • 文件大小:3145728
    • 提供者:abclinlin2011
  1. tfi-df计算特征词权重代码

  2. 这是一个tfi-df程序,实现文本特征词的权重计算。
  3. 所属分类:C++

    • 发布日期:2012-03-01
    • 文件大小:1048576
    • 提供者:yxj6073
  1. 蛙蛙教我学习文本分类

  2. 文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。 思路:计算两篇文档的相似度,最简单的做法就是用提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离。能计算两个文本间的距离后,用标准
  3. 所属分类:C#

    • 发布日期:2013-03-11
    • 文件大小:16384
    • 提供者:makangmk
  1. 百度权重批量查询工具 免费百度权重查询工具

  2. 百度权重批量查询工具,可以批量查询百度权重,百度收录,百度快照等,同时支持Excel和文本文件批量域名导入导出操作。软件使用多线程查询,速度快效率高。是各大站长查询域名百度权重的好助手。
  3. 所属分类:互联网

    • 发布日期:2013-05-02
    • 文件大小:22020096
    • 提供者:is5well
  1. 文本聚类算法实现

  2. k均值算法文本聚类的具体实现过程 思路:计算两篇文档的相似度,最简单的做法就是用提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离。能计算两个文本间的距离后,用标准的k-means算法就可以实现文本聚类了。
  3. 所属分类:C#

    • 发布日期:2013-08-16
    • 文件大小:16384
    • 提供者:q383965374
  1. 文本挖掘tmSVM开源项目包含Python和Java两种版本带参考文档

  2. 文本挖掘tmSVM开源项目集成libSVM和liblinear包含Python和Java两种版本带PDF源码参考文档 简介 文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。而文本分类是文本挖掘中一个非常重要的手段与技术。现有的分类技术都已经非常成熟,SVM、KNN、Decision Tree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡
  3. 所属分类:Python

    • 发布日期:2014-02-23
    • 文件大小:3145728
    • 提供者:vcfriend
  1. 基于依存句法分析的多主题文本摘要研究.pdf

  2. 基于文本关系图摘要是当下多主题文本摘要中常用方法,针对该方法的不足,对其进行了改进。首先,由 于基于词频统计的文本相似度计算方法对句子作用有限,引入依存句法分析,通过挖掘语义信息来扩展句子特征 项,提高句子相似度计算准确性。其次,选择基于图结构的无尺度图K-中心点聚类算法对文本关系图进行聚类分 析,提高主题挖掘的准确性。最后,综合考虑句子相似度和位置信息来计算句子权重,提高摘要句抽取的准确性。 最后用实验证明该改进方法的有效性。
  3. 所属分类:Java

    • 发布日期:2014-10-17
    • 文件大小:1048576
    • 提供者:u013085605
  1. 基于向量空间模型的文本分类特征权重算法研究_苏力华

  2. 介绍了向量空间模型的文本分类特征权重算法以及改进
  3. 所属分类:其它

    • 发布日期:2015-05-17
    • 文件大小:260096
    • 提供者:baidu_28268999
  1. 文本识别opencv-text-recognition

  2. 该压缩包主要包含文件:测试用的图片images,以及已经训练好的权重frozen_east_text_detection.pb,及运行代码:text_recognition.py
  3. 所属分类:深度学习

    • 发布日期:2018-10-16
    • 文件大小:90177536
    • 提供者:wsp_1138886114
  1. 基于Bootstrapping的文本分类模型

  2. 文中提出一种基于Bootstrapping 的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重。实验结果表明,在相同的手工训练语料的条件下,与传统的文本分类模型相比这种基于Bootstrapping 的文本分类模型具有明显优势。
  3. 所属分类:C/C++

    • 发布日期:2012-10-17
    • 文件大小:343040
    • 提供者:jslfhao
  1. 中心聚类和语义特征融合的网页信息文本挖掘方法

  2. 针对网页信息内容丰富且结构复杂,难以准确挖掘的问题,采用中心聚类和语义特征相互融合的方法.利用中心聚类算法确定样本最终的聚类中心,根据每个词在网页中出现的频率和词的上下文语义,构造一个网页-词语的权重映射矩阵,并将语义特征作为中心聚类相似性的判断依据,完成网页文本信息的挖掘.实验结果表明:利用该方法对网页文本进行挖掘,在时间增加不多的情况下,可以获得更高的召回率和准确率.
  3. 所属分类:其它

    • 发布日期:2020-05-30
    • 文件大小:588800
    • 提供者:weixin_38531017
  1. 基于双向GRU和贝叶斯分类器的文本分类

  2. 基于BiGRU和贝叶斯分类器的文本分类,利用搜狐新闻数据集进行实现,对12个种类进行分类,里面设计BiGRUB提取文本特征,TF-IDF特征权重赋值,Bytes分类进行实现,学习深度学习和机器学习很好的借鉴。
  3. 所属分类:互联网

    • 发布日期:2020-06-10
    • 文件大小:105472
    • 提供者:wws_2017
« 12 3 4 5 6 7 8 »