您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 新浪微博内容采集与分析工具C#开源版

  2. 运行环境为C#+MYSQL,并融合了ICTCLAS分词和TF*PDF算法,能够对采集到的信息,做趋势分析和热点发现等分析;此外,您可以通过调整程序中的正则表达式,以匹配相关代码区域的数据。
  3. 所属分类:C#

    • 发布日期:2010-10-28
    • 文件大小:2097152
    • 提供者:Yaozhanlei
  1. 基于相邻词的中文关键词自动抽取

  2. 请先下载CAJ阅读器 对于单编文档d自动提取关键词的算法如下所述; 1 使用基于词典的正向最小分词算法对文档进行分词。 2统计出文档d中每个词t在d中的TF,并将每个词在d中的权重Wt.....
  3. 所属分类:其它

    • 发布日期:2010-11-09
    • 文件大小:73728
    • 提供者:qdfch
  1. 新浪微博内容采集与分析工具C#开源版

  2. 运行环境为C#+MYSQL,并融合了ICTCLAS分词和TF*PDF算法,能够对采集到的信息,做趋势分析和热点发现等分析;此外,您可以通过调整程序中的正则表达式,以匹配相关代码区域的数据。
  3. 所属分类:C#

    • 发布日期:2013-09-28
    • 文件大小:2097152
    • 提供者:wxlong8888168
  1. 文本挖掘tmSVM开源项目包含Python和Java两种版本带参考文档

  2. 文本挖掘tmSVM开源项目集成libSVM和liblinear包含Python和Java两种版本带PDF源码参考文档 简介 文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。而文本分类是文本挖掘中一个非常重要的手段与技术。现有的分类技术都已经非常成熟,SVM、KNN、Decision Tree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡
  3. 所属分类:Python

    • 发布日期:2014-02-23
    • 文件大小:3145728
    • 提供者:vcfriend
  1. 基于Hadoop架构的文本分类算法

  2. 基于Hadoop的文本分类算法系统,本系统实现了分词处理,停用词处理(IK);使用朴素贝叶斯分类算法来对文本进行训练和分类,在测试过程中使用词频特征选择作为特征词选择算法,分类准确率达到了78%,包含卡方特征选择算法(训练集特征选择)。
  3. 所属分类:Java

    • 发布日期:2014-06-23
    • 文件大小:3145728
    • 提供者:cqyyjdw
  1. 统计多个文本的频数和tf值

  2. 本文件提供了采用java语言处理多个文本的频数和tf值方法
  3. 所属分类:Java

    • 发布日期:2016-04-23
    • 文件大小:32768
    • 提供者:qq_15206835
  1. 中文文本同频词统计规律及在关键词提取中的应用

  2. 通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词的界分公式,并通过实验验证了该公式能够更好地界分高频词和低频词。将提出的统计规律应用于中文文本关键词提取,有效提高了关键词提取效率,在文本长度不小于3 010词的前提下,频次为1和频次为2的词不必参与TF-IDF值的计算,可将计算效率提高2~7倍,且没有造成关键词丢失。解决了学
  3. 所属分类:其它

    • 发布日期:2019-07-22
    • 文件大小:1048576
    • 提供者:weixin_39841365
  1. Task04:机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer知识点总结

  2. 机器翻译 把一种语言自动翻译为另一种,输出的是单词序列(其长度可能与原序列不同) 步骤为:数据预处理 —> Seq2Seq模型构建 —> 损失函数 —> 测试 数据预处理: 读取数据。 处理编码问题,删除无效字符串 分词。把字符串转化为单词列表。 建立字典。把单词组成的列表转化为单词索引的列表 在tf、pytorch这类框架中要做padding操作,使一个batch数据长度相等 定义数据生成器。 Seq2Seq 6. 先用循环神经网络编码成一个向量再解码输出一个序列的元素。然
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:60416
    • 提供者:weixin_38682086
  1. jieba分词详解和实践

  2. jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念: 最常用的TF-IDF 什么是TF-IDF呢?要分成2个部分来理解。 TF,词频——一个词在文章中出现的次数 IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。 这是什么意思呢?我们来看个例子。 这是一条财经类新闻 上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / ,
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:39936
    • 提供者:weixin_38534352
  1. Python3 文章标题关键字提取的例子

  2. 思路: 1.读取所有文章标题; 2.用“结巴分词”的工具包进行文章标题的词语分割; 3.用“sklearn”的工具包计算Tf-idf(词频-逆文档率); 4.得到满足关键词权重阈值的词 结巴分词详见:结巴分词Github sklearn详见:文本特征提取——4.2.3.4 Tf-idf项加权 import os import jieba import sys from sklearn.feature_extraction.text import TfidfVectorizer sys.path
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:73728
    • 提供者:weixin_38746442