您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. kmeans中文文本聚类java源码(包括对文本tf,idf的计算,文本相似度计算)

  2. 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现
  3. 所属分类:其它

    • 发布日期:2009-05-08
    • 文件大小:9216
    • 提供者:kaiyan0308
  1. SVM文本分类程序(Java版)

  2. 中科院ICTCLAS2009分词 WVTool做向量空间模型生成 LIBSVM的线性核函数做分类 Swing应用程序框架做界面 包含netbeans工程3个,分别是用来写(界面类+分类的类),(对中科院的JNI进行包装的工程)和(WVTool扩展工程) 内附详细使用说明,每个目录下都有README
  3. 所属分类:Java

    • 发布日期:2009-05-15
    • 文件大小:14680064
    • 提供者:dvdface
  1. 基于向量空间模型的多主题Web文本分类方法

  2. 基于向量空间模型的多主题Web文本分类方法.pdf
  3. 所属分类:Web开发

    • 发布日期:2009-08-12
    • 文件大小:238592
    • 提供者:oxwangfeng
  1. SVM(支持向量机)相关资料

  2. 找到的一些SVM在文本图像处理和其他方面应用的的资料,希望对大家的学习有所帮助
  3. 所属分类:专业指导

    • 发布日期:2009-09-02
    • 文件大小:6291456
    • 提供者:amutong
  1. 文本向量化WVTool使用 和 原程序讲解

  2. 在我们进行数据挖掘学习的过程中,除了有现成的整理好的数据集供我们使用外,我们还需要自己构建数据集。对于做文本分类的研究者来说,要做的第一步就是要将文本向量化,然后在向量空间中对文本进行研究。这样就出现了一个问题,如何将文本向量化?WVTool是一款开源软件,它主要做文本词频方面的处理,对于实现文本向量化非常有用。它支持对文本、半结构化内容(Html、XML)的向量化处理功能。并且它现在与RapidMiner Data Mining suit (YALE)可以良好的集成,因此它的应用前景还是比较
  3. 所属分类:Java

    • 发布日期:2009-09-12
    • 文件大小:183296
    • 提供者:paco495631217
  1. 中文文本分类中特征抽取方法的比较研究.pdf

  2. 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率 DF、 信息增 益 IG、 互信息 MI、 χ2 分布 CHI四种不同的特征选取方法。采用支持向量机(SVM)和 KNN 两种不同的分类 器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法( IG、 MI和 CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的 矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特
  3. 所属分类:专业指导

    • 发布日期:2009-12-06
    • 文件大小:348160
    • 提供者:shiyoumaomao
  1. 基于VSM的中文文本分类系统的设计与实现.pdf

  2. 摘 要: 文本分类是指在给定分类体系下, 根据文本的内容 自动确定文本类别的过程。该文阐述了一个基于向量空间模 型的中文文本分类系统的设计和实现。对文本分类系统的系 统结构、预处理、特征提取、训练算法、分类算法等进行了详 细介绍。引入标题权重系数改进词语权重, 并提出了一种新 的分类算法。实验测试结果表明查全率和准确率均达到 90 %左右, 而且标题权重的引入和新分类算法的实施有效 地改善了分类性能。
  3. 所属分类:其它

    • 发布日期:2010-01-24
    • 文件大小:263168
    • 提供者:goodskyfly_1876
  1. 基于SVM的多类文本分类研究

  2. 本文在中文文本自动分类的基础上对文本多类分类方面做了一些有益的探索,对中 文文本分类的相关技术—中文分词、文本表示、特征提取、分类算法、可视化等方面做 了一些研
  3. 所属分类:其它

    • 发布日期:2010-03-02
    • 文件大小:603136
    • 提供者:wly_luffy
  1. vsm程序,用于文本预处理,分类使用

  2. 文本预处理,先进行向量化,编程向量形式进行后期处理。本文是C++程序,实现文本向量化
  3. 所属分类:C++

    • 发布日期:2010-03-28
    • 文件大小:3072
    • 提供者:hxd19830806
  1. 基于句子向量空间模型的案例知识库关键技术研究

  2. 随着信息技术的发展,经验知识管理已成为企事业单位的核心竞争力量。在人类的经验知识结构中,非结构化知识占很大比例,案例知识是非结构化经验知识的一种重要的形式,案例知识的高效交流、共享和充分利用已成为借鉴已有经验知识来解决新问题的源泉。存储案例知识的案例知识库是基于案例推理的基础和必要条件,案例知识库的研究有深远意义。 本文重点研究基于本体和句子向量空间模型(SVSM,Sentence Vecter Space Model)的案例知识库关键技术,完成的主要工作如下: 1.建立了案例知识库的三层立体
  3. 所属分类:专业指导

    • 发布日期:2010-04-03
    • 文件大小:2097152
    • 提供者:chunjunlu
  1. svg画图文档 可伸缩向量

  2. 可伸缩向量图形(SVG)使得用文本指定出现在页面上的图像成为可能。例如,传统图形需要指定矩形的每一个像素,而 SVG 只要说明矩形存在,并指出它的大小、位置和其它属性即可。
  3. 所属分类:其它

    • 发布日期:2010-04-14
    • 文件大小:893952
    • 提供者:lihaijing1125
  1. svmcls文本分类程序(含C++源代码+语料库)完整版

  2. svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计,文本证据权重,右半信息增益,分类方法包括支持向量机SVM和K近邻KNN,由李荣陆老师于2004年开发完成。 网上流传很多版本的svmcls文本分类程序,但几乎全部都是不能编译通过的,有些是缺少xercesc文件夹,有些是缺少xerces-c_2_2_0D.dll,有些是缺少分词
  3. 所属分类:C

    • 发布日期:2010-04-30
    • 文件大小:19922944
    • 提供者:moxibingdao
  1. 改进性文本聚类资源研究

  2. 经典的文本聚类算法很多,K均值聚类算法是目前比较流行的一种基于划分的算法。该算法中文档 相似度计算通常采用向量空间模型,它们在假设术语间相互独立的基础上,通过逻辑表达式或向量间的 内积反映用户查询和文档的相似度,将查询结果按相似度的降序排列后提供给用户[1]。它们对用户的查 询项进行精确匹配,因此只能反映用户所要检索内容的某一方面,无法保证语义概念上的匹配。而且算法 效果与样本输入的次序和词频相关,只有当句子包含的词数足够多时,相关的词才会重复出现,其效果才 能体现出来,因此该算法只适合于词频
  3. 所属分类:其它

    • 发布日期:2010-05-17
    • 文件大小:190464
    • 提供者:nanaliv
  1. 贝叶斯文本分类实用完整C++代码,文本转向量python代码

  2. 贝叶斯文本分类实用完整C++代码,超详细注释,有完整的训练和测试数据,有数据转成文本向量的python工具代码,代码在VC6上测试运行无误,能够得到正确的运行效果。。本人课程设计,倾情奉献!
  3. 所属分类:C++

    • 发布日期:2014-10-29
    • 文件大小:1048576
    • 提供者:dujianguying1
  1. 基于后缀树模型的文本实时分类系统的研究和实现

  2. 本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM),并在此 模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量 表示,不需要对文本进行分词、特征抽取等复杂计算。同时,该模型能够保证训练集中文本的更改,对分 类结果产生实时影响。实验结果和算法分析表明,我们系统的文本预处理的时间复杂度为O(N),远远优于 分词系统的预处理时间复杂度。此外,由于不需要分词和特征抽取,分类过程与具体语种无关,所以是一 种独立语种的分类方法
  3. 所属分类:网络基础

    • 发布日期:2009-02-22
    • 文件大小:228352
    • 提供者:blacfun
  1. tensorflow2.0 中英翻译 对文本的预处理(文本转换为文本向量 tfds.features.text.SubwordTextEncoder.build

  2. 把中英文翻译的数据 转化为模型可以接受的格式
  3. 所属分类:机器学习

  1. 基于文本挖掘的中文定量文体特征分析

  2. 在本文中,选择数据挖掘来检查是否存在某种语言学以词性(POS)为例的功能可以用作中文量化风格特征。 也可以说本文的目的是探索确定中文定量文体特征的方法。 课文新闻,科学,官方,艺术,电视对话以及选择日常会话方式以建立我们研究的语料库。 文本用主成分分析法分析了以POS为特征的向量。 通过聚集层次聚类方法聚类。 他们的结果表示POS可以用作文本的独特功能。 然后,支持采用矢量机建立训练数据分类模型, 精度和召回率,以验证文本分类的结果。 随机的选择森林来计算POS的重要性,即对POS的贡献分类,并
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:337920
    • 提供者:weixin_38564003
  1. 基于文本聚类的中文量化风格特征识别

  2. “新闻广播”和“三个人之间的强强对话”的风格是不同的。 前者在广播,而后者在对话。 本文收集了这两个程序的语料,并选择了句子长度,单词长度和句子首字母词POS作为字符来生成文本向量。 并通过欧氏距离和病房算法对文本进行聚类。 分析表明,句子长度,单词长度和句子首字母词POS可以用作汉语定量文体特征。
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:547840
    • 提供者:weixin_38683721
  1. 基于文本聚类的中文量化风格特征及不同风格之间的关系研究

  2. 本研究的语料来自新闻联播,日常对话和文涛的头条新闻,它们分别代表正式的书面风格,口语风格和对话风格。 从预处理的语料库中选择句子长度,单词长度,词性(POS)和句子首字母词POS作为特征来生成文本向量,然后将其与PAM(围绕medoids进行划分)和Ward算法进行聚类。 聚类结果表明:(1)合理选择句子长度,词长,词性和词首词词性作为汉语定量文体特征。 (2)风格是一个两极分化的连续体,因为正式的书面风格和口语风格表现出双极性分布,而对话风格则介于口语风格之间和附近。
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:1048576
    • 提供者:weixin_38675506
  1. text2vec:text2vec,中文文本到vetor。(文本向量化表示工具,包括词向量化,句子向量化,句子相似度计算)-源码

  2. text2vec text2vec,中文文本给vetor。(文本向量化表示工具,包括词向量化,句子向量化) 特征 文本向量表示 字词粒度,通过腾讯AI Lab开放式的大规模扩展中文 (文件名:light_Tencent_AILab_ChineseEmbedding.bin密码:tawe),获取字词的word2vec矢量表示。 句子粒度,通过求句子中所有单词词嵌入的预先计算得到。 篇章粒度,可以通过gensim库的doc2vec得到,应用替代,本项目不实现。 文本相似度计算 基准方法,估计两个句
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:144384
    • 提供者:weixin_42149145
« 12 3 4 5 6 7 8 9 10 ... 35 »