点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - 分词;tf
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
新浪微博内容采集与分析工具C#开源版
运行环境为C#+MYSQL,并融合了ICTCLAS分词和TF*PDF算法,能够对采集到的信息,做趋势分析和热点发现等分析;此外,您可以通过调整程序中的正则表达式,以匹配相关代码区域的数据。
所属分类:
C#
发布日期:2010-10-28
文件大小:2097152
提供者:
Yaozhanlei
基于相邻词的中文关键词自动抽取
请先下载CAJ阅读器 对于单编文档d自动提取关键词的算法如下所述; 1 使用基于词典的正向最小分词算法对文档进行分词。 2统计出文档d中每个词t在d中的TF,并将每个词在d中的权重Wt.....
所属分类:
其它
发布日期:2010-11-09
文件大小:73728
提供者:
qdfch
新浪微博内容采集与分析工具C#开源版
运行环境为C#+MYSQL,并融合了ICTCLAS分词和TF*PDF算法,能够对采集到的信息,做趋势分析和热点发现等分析;此外,您可以通过调整程序中的正则表达式,以匹配相关代码区域的数据。
所属分类:
C#
发布日期:2013-09-28
文件大小:2097152
提供者:
wxlong8888168
文本挖掘tmSVM开源项目包含Python和Java两种版本带参考文档
文本挖掘tmSVM开源项目集成libSVM和liblinear包含Python和Java两种版本带PDF源码参考文档 简介 文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。而文本分类是文本挖掘中一个非常重要的手段与技术。现有的分类技术都已经非常成熟,SVM、KNN、Decision Tree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡
所属分类:
Python
发布日期:2014-02-23
文件大小:3145728
提供者:
vcfriend
基于Hadoop架构的文本分类算法
基于Hadoop的文本分类算法系统,本系统实现了分词处理,停用词处理(IK);使用朴素贝叶斯分类算法来对文本进行训练和分类,在测试过程中使用词频特征选择作为特征词选择算法,分类准确率达到了78%,包含卡方特征选择算法(训练集特征选择)。
所属分类:
Java
发布日期:2014-06-23
文件大小:3145728
提供者:
cqyyjdw
统计多个文本的频数和tf值
本文件提供了采用java语言处理多个文本的频数和tf值方法
所属分类:
Java
发布日期:2016-04-23
文件大小:32768
提供者:
qq_15206835
中文文本同频词统计规律及在关键词提取中的应用
通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词的界分公式,并通过实验验证了该公式能够更好地界分高频词和低频词。将提出的统计规律应用于中文文本关键词提取,有效提高了关键词提取效率,在文本长度不小于3 010词的前提下,频次为1和频次为2的词不必参与TF-IDF值的计算,可将计算效率提高2~7倍,且没有造成关键词丢失。解决了学
所属分类:
其它
发布日期:2019-07-22
文件大小:1048576
提供者:
weixin_39841365
Task04:机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer知识点总结
机器翻译 把一种语言自动翻译为另一种,输出的是单词序列(其长度可能与原序列不同) 步骤为:数据预处理 —> Seq2Seq模型构建 —> 损失函数 —> 测试 数据预处理: 读取数据。 处理编码问题,删除无效字符串 分词。把字符串转化为单词列表。 建立字典。把单词组成的列表转化为单词索引的列表 在tf、pytorch这类框架中要做padding操作,使一个batch数据长度相等 定义数据生成器。 Seq2Seq 6. 先用循环神经网络编码成一个向量再解码输出一个序列的元素。然
所属分类:
其它
发布日期:2021-01-07
文件大小:60416
提供者:
weixin_38682086
jieba分词详解和实践
jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念: 最常用的TF-IDF 什么是TF-IDF呢?要分成2个部分来理解。 TF,词频——一个词在文章中出现的次数 IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。 这是什么意思呢?我们来看个例子。 这是一条财经类新闻 上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / ,
所属分类:
其它
发布日期:2021-01-20
文件大小:39936
提供者:
weixin_38534352
Python3 文章标题关键字提取的例子
思路: 1.读取所有文章标题; 2.用“结巴分词”的工具包进行文章标题的词语分割; 3.用“sklearn”的工具包计算Tf-idf(词频-逆文档率); 4.得到满足关键词权重阈值的词 结巴分词详见:结巴分词Github sklearn详见:文本特征提取——4.2.3.4 Tf-idf项加权 import os import jieba import sys from sklearn.feature_extraction.text import TfidfVectorizer sys.path
所属分类:
其它
发布日期:2021-01-20
文件大小:73728
提供者:
weixin_38746442