您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于VSM的中文文本分类系统的设计与实现.pdf

  2. 摘 要: 文本分类是指在给定分类体系下, 根据文本的内容 自动确定文本类别的过程。该文阐述了一个基于向量空间模 型的中文文本分类系统的设计和实现。对文本分类系统的系 统结构、预处理、特征提取、训练算法、分类算法等进行了详 细介绍。引入标题权重系数改进词语权重, 并提出了一种新 的分类算法。实验测试结果表明查全率和准确率均达到 90 %左右, 而且标题权重的引入和新分类算法的实施有效 地改善了分类性能。
  3. 所属分类:其它

    • 发布日期:2010-01-24
    • 文件大小:263168
    • 提供者:goodskyfly_1876
  1. 一种基于特征扩展的中文短文本分类方法

  2. :针对短文本所描述信号弱的特点,提出一种基于特征扩展的中文短文本分类方法。该方法首先利用FP- Growth算法挖掘训练集特征项与测试集特征项之间的共现关系,然后用得到的关联规则对短文本测试文档中的概念词语进行特征扩展。同时,引入语义信息并且改进了知网中DEF词条的描述能力公式,在此基础上对中文短文本进行分类。实验证明,这种方法具有高的分类性能,其微平均和宏平均值都高于常规的文本分类方法。
  3. 所属分类:其它

    • 发布日期:2010-12-11
    • 文件大小:186368
    • 提供者:hutaoer06051
  1. mkcls模块在windows平台上的移植

  2. mkcls 词语分类 词语对齐 NLP技术,同样用VS2003.net来运行该移植在windows上的mkcls。 注:运行前,仍需要把STLport-4.6.2库事先编译好,并让VS2003添加进系统库中,最后就能运行成功了! (可以下载我的资源中已经编译好的STLport-4.6.2,试试看吧)
  3. 所属分类:其它

    • 发布日期:2011-05-02
    • 文件大小:503808
    • 提供者:qwbug
  1. 文本分类(TextClassify)

  2. 针对文本处理和文本分类工作,首先对文本进行预处理,得到单个词语组成的序列,再通过算法得到文本的向量表示,对文本的处理很有用的
  3. 所属分类:Java

    • 发布日期:2011-06-20
    • 文件大小:12582912
    • 提供者:fengjia602
  1. 词语相似度计算研究

  2. 文档用于计算文本自动分类中词语的相似度计算,在舆情分析领域很有用哦
  3. 所属分类:网络监控

    • 发布日期:2012-03-29
    • 文件大小:611328
    • 提供者:abclinlin2011
  1. 中文词语语义相似度计算

  2. :词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用 Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本 文通过引入事物信息量的思想,提出了自己的观点:认为知网中的“义原”对“概念”描述的作用大小取决于其本身 所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在 一定程度上得到了和人的直观更加符合的结果。
  3. 所属分类:Linux

  1. 基于语义相似度计算的词汇语义自动分类系统

  2. :词汇语义分类存文本聚类、信息检索、机器翻译等多个研究领域l11拥有重要的理论及实践意义。介绍的知网语义相似 度计算的i;可汇语义自动分类系统通过设计双向索引结构,高效的组织和挖掘了知网已有数据资源,并利用成熟的知网词语 相似度计算方法,为词汇语义自动分类提供了不同于统计力‘法的新思路。目前系统的研究已取得实质性成果。在知网义原 1564个分类的基础上,对知网提供的6万余条汉语常用词进行初步语义分类,进而开发,二次分类模块,针对初步分类结 l果进一步细化为适合实际需要的子类。实验结果证明该系统
  3. 所属分类:微软认证

  1. 基于词语权重改进的朴素贝叶斯分类

  2. 基于词语权重改进的朴素贝叶斯分类算法的研究与应用
  3. 所属分类:其它

    • 发布日期:2012-12-04
    • 文件大小:2097152
    • 提供者:daniel8090
  1. Term-weighting_approaches_in_automatic_te

  2. 介绍一篇文章中如何计算每个词语的权重的经典文献,英文。
  3. 所属分类:互联网

    • 发布日期:2013-04-04
    • 文件大小:1048576
    • 提供者:monoid0805
  1. 文本分类算法

  2. 基于文本分类中特征提取的领域词语聚类 刘华 [摘要]本文以领域特征明显的词和短语作为聚类对象,在分类系统的大规模语料库中,利用文本分类的特征提取方法进行词语的领域聚类,从而获得大规模的领域知识,用于文本分类和主题分析。 [关键词]特征提取 领域词语 聚类
  3. 所属分类:其它

    • 发布日期:2014-08-04
    • 文件大小:110592
    • 提供者:jaaaaaaaaaa
  1. 一种改进的基于同义词替换的中文文本信息隐藏方法

  2. 通过深入分析当前针对中文的基于同义词替换的自然语言信息隐藏算法,发现由于存在大量不完全可替换的同义词词组,经过同义词替换后可能会破坏句子的语义一致性。针对这一缺点,提出了一种改进的基于同义词替换的中文文本信息隐藏算法。该算法利用知网对同义词词组进行分类,对于不完全可替换的同义词词组,通过依存句法分析来获取同义词的上下文搭配词语,根据搭配词语判断是否进行替换。实验结果表明,该算法能有效的排除错误的同义词替换,替换的准确率达到89.1%。
  3. 所属分类:其它

    • 发布日期:2008-11-20
    • 文件大小:187392
    • 提供者:d_day1978
  1. 文本分类中词语权重计算方法的改进及应用

  2. 这是一篇硕士论文,文中提出了改进权值的方法,并在不同的分类算法里进行了验证,证明结果是可行的。
  3. 所属分类:其它

    • 发布日期:2009-04-23
    • 文件大小:679936
    • 提供者:wxmcool
  1. 词语知识系列

  2. 本文档收集了常用的语文词语知识。例如:词语分类大全、成语归类大全、特殊形式的的的词语、常用反义词和近义义词等等。
  3. 所属分类:专业指导

    • 发布日期:2012-11-29
    • 文件大小:202752
    • 提供者:my654321mm
  1. 一种基于词语抽象度的汉语隐喻识别方法

  2. 【目的】设计一种自动计算汉语词语抽象度的方法,并将其用在自然语言理解中的隐喻识别任务。【方法】以统计学习理论中逻辑回归为计算模型,把神经网络语言模型获取的词语词向量作为特征,通过构建抽象词库得到特征权重向量,计算汉语词语抽象度。提出一种基于词语抽象度的汉语隐喻识别算法,验证该方法的应用效果。【结果】通过与已有的方法进行实验对比,本文设计的汉语词语抽象度计算方法更接近于人的认知常识;并且在隐喻识别任务中,也体现出更好的准确率。【局限】词语词向量表示词语抽象程度有一些缺陷;抽象词语库的规模影响特征权
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:245760
    • 提供者:weixin_38590790
  1. 信息处理用藏语词语分类体系研究[J]

  2. 信息处理用藏语词语分类体系研究[J]
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:494592
    • 提供者:weixin_38701952
  1. 信息处理维吾尔语词语分类体系及标记研究(Ⅰ)

  2. 信息处理维吾尔语词语分类体系及标记研究(Ⅰ)
  3. 所属分类:其它

    • 发布日期:2021-02-23
    • 文件大小:566272
    • 提供者:weixin_38571453
  1. 一种基于特征扩展的中文短文本分类方法

  2. 针对短文本所描述信号弱的特点,提出一种基于特征扩展的中文短文本分类方法。该方法首先利用FP-Growth算法挖掘训练集特征项与测试集特征项之间的共现关系,然后用得到的关联规则对短文本测试文档中的概念词语进行特征扩展。同时,引入语义信息并且改进了知网中DEF词条的描述能力公式,在此基础上对中文短文本进行分类。实验证明,这种方法具有高的分类性能,其微平均和宏平均值都高于常规的文本分类方法。
  3. 所属分类:其它

    • 发布日期:2021-02-23
    • 文件大小:120832
    • 提供者:weixin_38602098
  1. 利用上下位关系的中文短文本分类

  2. 针对短文本长度短、描述信号弱的特点,提出了一种利用上下位关系的中文短文本分类框架。该框架首先利用知网确定训练文本中概念对的上下位关系,进而确定词语对的上下位关系,再将其用于扩展测试文本的特征向量,从而实现对测试文本的分类。实验表明:利用上下位关系能够改善短文本的分类性能。
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:435200
    • 提供者:weixin_38602563
  1. 基于领域词语本体的短文本分类

  2. 短文本自身长度较短,描述概念能力弱,常用文本分类方法都不太适用于短文本分类。提出了基于领域词语本体的短文本分类方法。首先抽取领域高频词作为特征词,借助知网从语义方面将特征词扩展为概念和义元,通过计算不同概念所包含相同义元的信息量来衡量词的相似度,从而进行分类。对比实验表明,该方法在一定程度上弥补了短文本特征不足的缺点,且提高了准确率和召回率。
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:355328
    • 提供者:weixin_38663595
  1. 融合词语类别特征和语义的短文本分类方法

  2. 针对短文本内容简短、特征稀疏等特点,提出一种新的融合词语类别特征和语义的短文本分类方法.该方法采用改进的特征选择方法从短文本中选择最能代表类别特征的词语构造特征词典,同时结合利用隐含狄利克雷分布LDA主题模型从背景知识中选择最优主题形成新的短文本特征,在此基础上建立分类器进行分类.采用支持向量机SVM与k近邻法k-NN分类器对搜狗语料库数据集上的搜狐新闻标题内容进行分类,实验结果表明该方法对提高短文本分类的性能是有效的.
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:1048576
    • 提供者:weixin_38590456
« 12 3 4 5 »