您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码

  2. 498705SVM.rar SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码
  3. 所属分类:其它

    • 发布日期:2009-05-13
    • 文件大小:640000
    • 提供者:JiaoYanMa_3AZZK
  1. 中文文本分类中特征抽取方法的比较研究.pdf

  2. 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率 DF、 信息增 益 IG、 互信息 MI、 χ2 分布 CHI四种不同的特征选取方法。采用支持向量机(SVM)和 KNN 两种不同的分类 器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法( IG、 MI和 CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的 矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特
  3. 所属分类:专业指导

    • 发布日期:2009-12-06
    • 文件大小:348160
    • 提供者:shiyoumaomao
  1. svmcls文本分类程序(含C++源代码+语料库)完整版

  2. svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计,文本证据权重,右半信息增益,分类方法包括支持向量机SVM和K近邻KNN,由李荣陆老师于2004年开发完成。 网上流传很多版本的svmcls文本分类程序,但几乎全部都是不能编译通过的,有些是缺少xercesc文件夹,有些是缺少xerces-c_2_2_0D.dll,有些是缺少分词
  3. 所属分类:C

    • 发布日期:2010-04-30
    • 文件大小:19922944
    • 提供者:moxibingdao
  1. 中文文本分类中特征抽取方法的比较研究

  2. 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、V2 分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN 两种不同的分类器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和CHI) 在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性
  3. 所属分类:专业指导

    • 发布日期:2010-09-02
    • 文件大小:244736
    • 提供者:guofeng314
  1. SVMCLS 文本自动分类器(可编译Release完整版)--李荣陆

  2. 之前的最好资源描述如下: svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计,文本证据权重,右半信息增益,分类方法包括支持向量机SVM和K近邻KNN,由李荣陆老师于2004年开发完成。 网上流传很多版本的svmcls文本分类程序,但几乎全部都是不能编译通过的,有些是缺少xercesc文件夹,有些是缺少xerces-c_2_2_0
  3. 所属分类:C

    • 发布日期:2010-09-21
    • 文件大小:9437184
    • 提供者:superyangtze
  1. 语音识别技术文章.rar

  2. 第一部分 基本理论 第2章 听觉机理和汉语语音基础 2. 1 概述 2.2 听觉机理和心理 2.2.1 语音听觉器官的生理结构 2.2.2 语音听觉的心理 2.3 发音的生理机构与过程 2.4 汉语语音基本特性 2.4. 1 元音和辅音 2.4.2 声母和韵母 2.4.3 音调(字调) 2.4.4 音节(字)构成 2.4.5 汉语的波形特征 2.4.6 音的频谱特性 2.4.7 辅音的频谱特性 2.4.8 汉语语音的韵律特征 2.5 小结 参考文献 第3章 语音信号处理方法--时域处理 3.1
  3. 所属分类:其它

    • 发布日期:2011-05-12
    • 文件大小:5242880
    • 提供者:wangjunhui1984
  1. 基于svm的中文文本自动分类系统的语料库

  2. 基于svm的中文文本自动分类系统的语料库, 包含了17类, 全部都是自己爬的. 详情:http://blog.csdn.net/yinchuandong2/article/details/17717449
  3. 所属分类:Java

    • 发布日期:2014-07-23
    • 文件大小:10485760
    • 提供者:yinchuandong2
  1. 新闻分类语料

  2. 新闻分类语料,9个类别财经,教育,军事,科技,政治等 按新闻标签爬取的。
  3. 所属分类:其它

    • 发布日期:2015-09-16
    • 文件大小:18874368
    • 提供者:baidu_26550817
  1. 新闻语料库

  2. 包含2015年一整年的新闻,文件以txt形式存储,是从各大网站上爬取下来的。希望喜欢
  3. 所属分类:Java

    • 发布日期:2016-09-11
    • 文件大小:18874368
    • 提供者:u013006982
  1. libsvm分类训练和测试数据语料

  2. 用于libsvm分类的语料,包含训练数据和测试数据,格式为libsvm要求的格式,可用于libsvm工具的练习
  3. 所属分类:其它

    • 发布日期:2016-11-02
    • 文件大小:203776
    • 提供者:mj708955531
  1. 自然语言处理之文本主题判别

  2. 问题发现: 本次案例为工作中遇到的实际问题,在语音识别中的语料准备部分,需要从网络中爬取相当数量的相关文本,其中发现爬取到了一些不相关的内容,如何把这些不相关的内容剔除掉成为笔者需要思考的问题。 初步思考: 遇到此问题笔者第一时间考虑是将文本分词后向量化,使用聚类看一下分布情况,然而发现在不同训练集中,训练样本变化时,向量随之变化,在测试集中表现一般,在实测中几乎无用。于是想到向量化的方法问题,使用sklearn CountVectorizer方法进行向量化,仅仅是将所有词频无序的向量化,看到
  3. 所属分类:机器学习

    • 发布日期:2018-06-25
    • 文件大小:2097152
    • 提供者:weixin_40662229
  1. 搜狗文本分类语料库-中文文本分类

  2. 实现文本分类的主要包括几个步骤文本分词处理,特征选择,特征权重计算,文本特征向量表示,基于训练文本的特征向量数据训练SVM模型,对于测试集进行特征向量表示代入训练得到的svm模型中进行预测分类,达到93%的准确率
  3. 所属分类:机器学习

    • 发布日期:2019-02-25
    • 文件大小:27262976
    • 提供者:wydewy
  1. 文本分类实验报告(详尽版本)

  2. 本报告包括详尽完整的文本分类处理过程,包括语料库的处理、jieba分词、停用词无关词处理、词袋模型的构建(CHI值检验用于特征筛选、tfidf作为特征向量值)。并用自编朴素贝叶斯以及sklearn包中的SVM进行了文本效果的检测,通过混淆矩阵和roc曲线展现了实现效果。实验报告写的很详细,不懂的地方可以看报告以及看博客中的部分细节讲解。
  3. 所属分类:算法与数据结构

    • 发布日期:2019-01-11
    • 文件大小:4194304
    • 提供者:sgfmby1994
  1. 酒店评论分析.zip

  2. 接上一篇课程设计报告的具体实现代码,配置环境为python3.7,需要用到jieba库,wordcloud mxlend等,先通过2000条已经标号的正负评论语料库训练svm模型,运用此模型对爬取好的酒店评论(new_comment)进行分类(seperate),再对分好类的酒店评论分别做LDA主题聚类分析,最后关联分析
  3. 所属分类:餐饮零售

    • 发布日期:2020-06-18
    • 文件大小:59768832
    • 提供者:weixin_40382566
  1. 自然语言处理文本分类实验

  2. Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA:含文本10分类语料、机器学习算法、深度学习算法、专家系统,文本分类结果及结论
  3. 所属分类:深度学习

    • 发布日期:2020-09-27
    • 文件大小:52428800
    • 提供者:Yellow_python
  1. 基于多特征融合的中文比较句识别算法

  2. 观点承载着文本的重要信息,而比较句是观点评论中一种常见的句式现象。针对中文比较句识别问题,该文提出了一种基于规则与统计相结合的方法并进行实验。该方法先对语料及其分词结果进行规范化处理,再通过基于比较特征词词典与句法结构模板、依存关系相结合的方法进行泛提取。然后设计一种CSR规则提取算法,并利用CRF挖掘实体对象信息及语义角色信息。最后利用SVM分类器,选取不同特征维数,找到使性能达到最优的特征形式完成精提取。
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:326656
    • 提供者:weixin_38526421
  1. 基于动词名词和CHI特征选择的中文人物社会关系抽取

  2. 针对中文人物社会关系标注语料库的匮乏和人物关系分类过于粗糙的问题,采用一种简单的方式标注了八类主要人物社会关系。为了有效地降低特征向量的维数避免维数灾难,并尽可能去除噪声特征以提高关系抽取的准确率,提出一种基于动词和名词抽取与χ2统计量法( CHI) 相结合的特征选择方法,并使用TF-IDF计算特征权重。通过SVM 分类器进行实验,F值和正确率都得到了提高; 为了充分利用数据集对该特征选择方法的效果进行测试,使用k-折交叉验证检验该方法的有效性,实验表明通过该方法产生的分类模型具有较强的区分能力
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:827392
    • 提供者:weixin_38657353
  1. 基于两步策略的中文短文本分类研究

  2. 为更好地挖掘文本信息,研究了将两步策略用于中文短文本分类的3个关键问题,提出了基于组合朴素贝叶斯(NB)和K近邻(KNN)分类器的两步中文短文本分类方法:(1)直接利用NB和KNN的输出构造其对应的二维空间,根据该空间内错误文本的分布将测试文本集分为3部分:能被KNN可靠分类的文本集A,不能被KNN可靠分类但能被NB可靠分类的文本集B,其他文本集C.(2)用KNN、NB分别对文本集A和B进行分类,根据训练语料的类别分布,直接给属于文本集C的文本分配标签.与NB、KNN和支持向量机(SVM)的对比
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:302080
    • 提供者:weixin_38514322
  1. 融合词语类别特征和语义的短文本分类方法

  2. 针对短文本内容简短、特征稀疏等特点,提出一种新的融合词语类别特征和语义的短文本分类方法.该方法采用改进的特征选择方法从短文本中选择最能代表类别特征的词语构造特征词典,同时结合利用隐含狄利克雷分布LDA主题模型从背景知识中选择最优主题形成新的短文本特征,在此基础上建立分类器进行分类.采用支持向量机SVM与k近邻法k-NN分类器对搜狗语料库数据集上的搜狐新闻标题内容进行分类,实验结果表明该方法对提高短文本分类的性能是有效的.
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:1048576
    • 提供者:weixin_38590456
  1. TextClassification:基于scikit-learn实现对新浪新闻的文本分类,数据集为100w篇文档,总计10类,测试集与训练集1:1划分。分类算法采用SVM和Bayes,其中Bayes作为基线-源码

  2. 新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:100352
    • 提供者:weixin_42128270
« 12 »