您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 中文文本分类中特征抽取方法的比较研究

  2. 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、V2 分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN 两种不同的分类器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和CHI) 在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性
  3. 所属分类:专业指导

    • 发布日期:2010-09-02
    • 文件大小:244736
    • 提供者:guofeng314
  1. WordFeature文本分类器

  2. 实现的功能 一、语料库处理 词频率(TF),文档频率(DF)的统计。 二、特征词提取。 文档频率DF方法:DF大于指定的阀值而且在各分类之间具有差异性。 开方(χ2) 方法:衡量特征与类别的独立性 信息增益IG方法:衡量特征能够为分类系统带来多少信息,跟具体类别无关。 三、文本分类。 分类快速。 能对单个文件、目录、文件列表进行分类。
  3. 所属分类:专业指导

    • 发布日期:2010-12-18
    • 文件大小:1039360
    • 提供者:book100
  1. 基于CHI值特征选取和覆盖的文本分类方法

  2. 利用 CHI 值特征选取和前向神经网络的覆盖算法, 通过对文本进行分词的预处理后, 实现文本的自动分类。该方法利用CHI 值进行特征选取即特征降维,应用覆盖算法进行文本分类。该方法将 CHI 值特征选取和覆盖算法充分结合,在提高了分类速度的同时还保证了分类的准确度。应用该方法对标准数据集中的文本进行实验, 并在不同的维数上与SVM 算法、 朴素贝叶斯方法的实验结果进行了比较。结果表明,与SVM 算法和朴素贝叶斯方法相比较, 覆盖算法在准确度上更好。并且,维数的选择对分类的精确度影响很大。
  3. 所属分类:专业指导

    • 发布日期:2011-05-06
    • 文件大小:162816
    • 提供者:nbayangcewqcewq
  1. 文本分类入门

  2. 了解文本分类问题的定义,学习各种文本分类的方法,使用统计学习方法进行文本分类,各种文本相似度计算的算法,很容易的掌握文本分类。
  3. 所属分类:专业指导

    • 发布日期:2013-04-14
    • 文件大小:155648
    • 提供者:u010289517
  1. 文本分类(贝叶斯算法)

  2. 采用贝叶斯算法实现的文本分类。本源码中已经包含了训练集和测试集数据,分词采用je和lucene包(源码包含),具有简单的界面。当然,你如果想要正常运行自然需要对这两个包进行导入,并且在源码中重新设置文件路径的。
  3. 所属分类:Java

    • 发布日期:2013-06-03
    • 文件大小:3145728
    • 提供者:firefox_hit
  1. 文本分类系统

  2. TextClassify文本分类系统适用于中文,英文文本分类。 包括各个文本的关键词输出,可以控制关键词输出个数,也可以对关键词加入黑名单和白名单。 关于TextClassify文本分类系统的改进: 改进jieba中文分词词典 改进黑名单:增加停用词 改进白名单:增加专业词 在TextProcess改进每一类text至多选FileInFolder个:理论上越多越好 deleteN的选取:可以优化 特征词的长度限定:unicode不过长,不过短 特征词词典dict_size的选取:可以优化 特征
  3. 所属分类:Python

    • 发布日期:2014-06-17
    • 文件大小:1048576
    • 提供者:lining0806
  1. 数据库学术论文 基于自训练EM算法的半监督文本分类

  2. 数据库学术论文,基于自训练EM算法的半监督文本分类。
  3. 所属分类:其它

    • 发布日期:2008-12-03
    • 文件大小:474112
    • 提供者:hellojackson
  1. 文本分类相关程序和数据,包括TextCNN RNN CRF等

  2. 其中包括程序项目三个, Text CNN,RNN+CRT,CNN+LSTM的文本分类。包括数据训练集和测试集。文本分类是NLP的基础任务,掌握它是进阶的基础 enjoy
  3. 所属分类:深度学习

    • 发布日期:2020-12-15
    • 文件大小:265289728
    • 提供者:weixin_41956783
  1. 以单字为单位完成CNN文本分类。

  2. CNN(char)文本分类完整流程数据(预)处理网络构建整体调度 完整流程 常见的深度学习文本分类主要分为三个模块。1、数据处理。2、网络构建。3、整体调度main。 数据(预)处理 目的 :将各种乱七八糟形式的初始数据转换成神经网络所支持的数据,如:等长的Sentence。 举例子:见如下代码块。 初始数据: 体育\tNBA球星某某某绝杀了...and so on. 转换 ↓ 目标数据:(神经网络所能接收的数据)x = tf.placeholder([自
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:50176
    • 提供者:weixin_38663197
  1. 百万级别中文文本分类

  2. 文章目录0.split_word.py——分词1.concat_data.py——拼接2.train_model.py——模型训练3.result_judge.py——结果评判其他github 项目地址 从搜狐上爬取1042326篇新闻文本,其中包含10个类别:automobile、culture、dressing、entertainment、finance、life、medical、military、social、sports,每类包含十万篇文本左右,对训练集和测试集以 3:7 的比例划分进行
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:260096
    • 提供者:weixin_38517122
  1. 使用生成模型进行文本分类来挖掘多个领域的区别和共性

  2. 近年来,多个域之间的分布差异已被用于跨域文本分类。沿着这条线,我们在这项研究中显示了两个新的观察结果。首先,数据分布的差异通常是由于不同的域使用不同的索引词来表达相同的概念。其次,概念性要素与文档类之间的关联可以跨域保持稳定。这两个观察结果实际上表明了跨领域的区别和共性。受上述观察的启发,我们提出了一种生成统计模型,称为协作双重PLSA(CD-PLSA),以同时捕获多个域之间的域区别和共性。与仅具有一个潜在变量的概率潜在语义分析(PLSA)不同,该模型具有两个潜在因子y和z,分别对应于单词概念和
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:3145728
    • 提供者:weixin_38694006
  1. 使用生成模型进行文本分类的跨领域挖掘区别和共性

  2. 近年来,多个域之间的分布差异已被用于跨域文本分类。 沿着这条线,我们在这项研究中显示了两个新的观察结果。 首先,数据分布的差异通常是由于不同的域使用不同的索引词来表达相同的概念。 其次,概念性要素与文档类之间的关联可以跨域保持稳定。 这两个观察结果实际上表明了跨领域的区别和共性。 受以上观察的启发,我们提出了一种生成统计模型,称为协作双重PLSA(CD-PLSA),以同时捕获多个域之间的域区别和共性。 与仅具有一个潜在变量的概率潜在语义分析(PLSA)不同,该模型具有两个潜在因子y和z,分别对应
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:3145728
    • 提供者:weixin_38565818
  1. TextClassification:使用不同神经网络的文本分类-源码

  2. 文字分类 使用不同的神经网络进行文本分类。中文文本分类,使用TensorFlow 2.x实现TextCNN,TextRNN,TextRCNN,BiLSTM Attention,HAN等类型的深度学习模型。 数据 数据收集数据只取新闻中的五个类别:汽车,娱乐,军事,体育,科技将五个类别分词后保存到数据文件目录,作为分类模型构造与验证数据。 数据集 数据量 总数据 87747 训练集 65810 测试集 21973 环境 的Python 3.7 TensorFlow 2.0+ 使用说明 进入到相关模
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:7340032
    • 提供者:weixin_42148975
  1. 利用单词簇和文档类别之间的关联来进行跨域文本分类。

  2. 跨域文本分类的目标是使从标记源域中学习到的知识适应未标记目标域,其中来自源域和目标域的文档来自不同的分布。 但是,尽管原始单词特征的分布不同,但是单词簇(概念特征)与文档类别之间的关联可能在不同域中保持稳定。 在本文中,我们将这些不变的关联作为通过非负矩阵三因子分解将知识从源域转换为目标域的桥梁。 具体来说,我们针对源域和目标域数据分别制定了两个矩阵三因子分解的联合优化框架,其中词簇与文档类之间的关联在它们之间共享。 然后,给出了用于该优化的迭代算法,并从理论上证明了其收敛性。 综合实验证明了该
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:663552
    • 提供者:weixin_38733355
  1. 拥抱面Kong笔记本:带有roBERTa句子嵌入的文本分类。 在平均聚合的顶部提供IDF加权聚合-源码

  2. 拥抱脸笔记本 具有roBERTa句子嵌入的文本分类。 在平均聚合的顶部提供IDF加权聚合。
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:220160
    • 提供者:weixin_42121058
  1. 文本分类:使用scikit-learn进行文本分类。 分类BBC文章-源码

  2. 文字分类 使用scikit-learn将BBC文章分类为几类 这个怎么运作 有两个数据集。 带有12.267个数据点的train_set.csv和带有3.068数据点的test_set.csv。 训练集每篇文章包含5列。 ID,标题,内容,类别(政治,电影,足球,商业,技术)和RowNum。 我们的目标是找到针对该特定训练集的最佳分类器,然后使用它对测试集的文章进行分类。 首先,您可以通过运行wordcloud.py模块为每个类别生成一个词云来深入了解数据集。 然后,下一步是使用TFIDF
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:5242880
    • 提供者:weixin_42140625
  1. Self-Attention-Keras:自我关注与文本分类-源码

  2. 自关注与文本分类 本仓库基于自关注机制实现文本分类。 依赖 Python 3.5 凯拉斯 数据集 IMDB影评高度分类数据集,来自IMDB的25,000条影评,被标记为正面/纵向两种评价。影评已被预先为词下标构成的序列。方便起见,单词的下标基于它在数据集中出现的频率标定,例如整数3所编码的词为数据集中第3常出现的词。 按照惯例,0不代表任何特定的词,而编码为任何未知单词。 用法 训练 $ python imdb_attention.py 比较结果 算法 训练时间(每纪元) Val准确率 Va
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:55296
    • 提供者:weixin_42136837
  1. text_gcn:用于文本分类的图卷积网络。 AAAI 2019-源码

  2. text_gcn 本文中Text GCN的实现: 梁耀,毛成胜,罗源。 “图卷积网络用于文本分类。” 在第33届AAAI人工智能会议(AAAI-19)中 要求 Python 2.7或3.6 Tensorflow> = 1.4.0 再现结果 运行python remove_words.py 20ng 运行python build_graph.py 20ng 运行python train.py 20ng 在为其他数据集生成结果时,将上述3个命令行中的20ng更改为R8 , R52
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:283115520
    • 提供者:weixin_42165980
  1. text_classification:具有深度学习功能的各种文本分类模型等-源码

  2. 文字分类 该存储库的目的是通过深度学习探索NLP中的文本分类方法。 更新: 中文语言理解评估基准( ):用一行代码运行10个任务和9个基准,并进行详细的性能比较。 释放预训练模型使用30G +中国原始语料库,xxlarge,xlarge等进行中文培训,目标是与中国国庆日2019年10月7日的最新汉语表演相匹配! Google的BERT使用语言模型的预训练在NLP的10多个任务上取得了最新的成果,然后 微调。 介绍 它具有用于文本分类的各种基准模型。 它还支持多标签分类,其中多标签与句子或
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:14680064
    • 提供者:weixin_42132056
  1. nlp-in-practice:用于解决实际文本数据问题的入门代码。 包括:Gensim Word2Vec,短语嵌入,具有逻辑回归的文本分类,具有pyspark的单词计数,简单的文本预处理,预训练的嵌入等等-源码

  2. NLP实践 使用这些NLP,文本挖掘和机器学习代码示例和工具来解决现实世界中的文本数据问题。 笔记本/来源 第一列中的链接将您带到带有源代码的子文件夹/存储库。 任务 相关文章 来源类型 描述 python脚本 使用PySpark提取大量数据的短语。 使用这些短语注释文本或将这些短语用于其他下游任务。 python脚本+笔记本 使用字数统计或tfidf可视化热门关键字 笔记本 如何正确使用Word2Vec以获得所需的结果 python脚本 如何使用PySpark读取带有字数示例的不同格式的文件
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:97517568
    • 提供者:weixin_42172204
« 12 3 4 5 6 7 8 9 10 ... 50 »