点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - 中文文本聚类
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
kmeans中文文本聚类java源码(包括对文本tf,idf的计算,文本相似度计算)
算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现
所属分类:
其它
发布日期:2009-05-08
文件大小:9216
提供者:
kaiyan0308
文本聚类算法TextColuster
在大量中文文本中自主定义关键字,将具有相同关键字的文本分类。
所属分类:
其它
发布日期:2009-05-26
文件大小:16384
提供者:
sunifo
论文:一种改进的k_means中文文本聚类算法
论文:一种改进的k_means中文文本聚类算法 pdf文档
所属分类:
其它
发布日期:2009-06-08
文件大小:89088
提供者:
mb25chen
优化初始值的K均值中文文本聚类.pdf
优化初始值的K均值中文文本聚类.pdf 优化初始值的K均值中文文本聚类.pdf
所属分类:
其它
发布日期:2010-03-14
文件大小:603136
提供者:
zhgh070
一种改进的k—means中文文本聚类算法
一种改进的k—means中文文本聚类算法
所属分类:
其它
发布日期:2010-04-12
文件大小:182272
提供者:
gaizai
改进性文本聚类资源研究
经典的文本聚类算法很多,K均值聚类算法是目前比较流行的一种基于划分的算法。该算法中文档 相似度计算通常采用向量空间模型,它们在假设术语间相互独立的基础上,通过逻辑表达式或向量间的 内积反映用户查询和文档的相似度,将查询结果按相似度的降序排列后提供给用户[1]。它们对用户的查 询项进行精确匹配,因此只能反映用户所要检索内容的某一方面,无法保证语义概念上的匹配。而且算法 效果与样本输入的次序和词频相关,只有当句子包含的词数足够多时,相关的词才会重复出现,其效果才 能体现出来,因此该算法只适合于词频
所属分类:
其它
发布日期:2010-05-17
文件大小:190464
提供者:
nanaliv
基于文本内容的自动文本聚类
基于文本内容的自动文本聚类技术作为文本信息挖掘技术中的核心技术之一,其目标是 将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相 似度尽可能的小。 本文以中文文本作为文本聚类的挖掘对象,对文本集进行了中文文本预处理、文本聚类。 按照文中的方法步骤,设计了一个系统,实现了文本聚类的功能。
所属分类:
互联网
发布日期:2011-04-04
文件大小:567296
提供者:
cuizaixu_jingzhe
基于SOM算法的中文文本聚类
文本挖掘是数据挖掘领域中一个热门的研究方向。在文本挖掘领域中,文本聚类技术有助于缩小数据搜索空间,提高查询精度。作为一种无监督的机器学习方法,文本聚 类技术己经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。可以说,文本聚类的研究具有重要的理论意义和实际使用价值。自组织特征映射神经网络SOM在聚类应用中具有自组织映射、可视化好、计算效率高、聚类效果好等良好特性。因此,本文将SOM神经网络应用到中文文本聚类中,研究其在文本聚类中的有关特性。
所属分类:
其它
发布日期:2011-04-21
文件大小:4194304
提供者:
tomcatsg
一种高效的聚类算法
在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难的,而且现有的聚类算法的时空效率也有待于进一步提高.为了解决这一难题,首先根据样本分布特性,通过数学分析,得到确定样本空间划分间隔数的数学函数,然后,再根据样本分布特性,采用爬山的策略得到样本类的划分,最后提出了一种实用而高效的聚类算法.从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类.理论分析和应用结果都表明,该算法不仅不需要人为确定参数,同时,还可以提高信息
所属分类:
C++
发布日期:2011-12-09
文件大小:483328
提供者:
wangjian8855
汉语文本聚类
程序利用中科院的软件,分词、词性标注以后聚类,利用tf-idf值求出30个特征性,生成特征向量,可放在weka中聚类!
所属分类:
C++
发布日期:2012-03-05
文件大小:5242880
提供者:
bengyu
k-means文本聚类 java源码
k-means中文文本聚类java源码,包括对文本tf,idf的计算,文本相似度计算
所属分类:
Java
发布日期:2012-06-13
文件大小:9216
提供者:
flashwxh2008
VSM在中文文本聚类中的应用及实证分析
VSM在中文文本聚类中的应用及实证分析,为优秀硕士毕业论文,对vsm在文本聚类中的应用进行的深入的分析。
所属分类:
专业指导
发布日期:2012-10-15
文件大小:221184
提供者:
gcliupeng
中文文本聚类自动评价研究
文本自动聚类研究方法的总结以及评价方法等研究
所属分类:
网络基础
发布日期:2013-10-26
文件大小:215040
提供者:
u010001193
VSM在中文文本聚类中的应用及实证分析
VSM在中文文本聚类中的应用及实证分析.PDF VSM在中文文本聚类中的应用及实证分析.PDF
所属分类:
专业指导
发布日期:2008-11-13
文件大小:141312
提供者:
juicewall
一种基于自组织神经网络的中文文本聚类新方法.PDF
一种基于自组织神经网络的中文文本聚类新方法.PDF 一种基于自组织神经网络的中文文本聚类新方法.PDF 一种基于自组织神经网络的中文文本聚类新方法.PDF
所属分类:
网络基础
发布日期:2008-11-13
文件大小:175104
提供者:
juicewall
基于STC的中文文本聚类算法
提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结 构,辅助用户浏览检索结果.首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后 提 出了 基 于后缓树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算 法 实现 的 过程中遇到的关键问题及解决方案
所属分类:
其它
发布日期:2009-04-15
文件大小:434176
提供者:
terminator314
中文文本聚类
使用python实现中文文本聚类,利用kmeans算法,包含jiba分词方法等
所属分类:
Python
发布日期:2018-09-05
文件大小:5242880
提供者:
qq_24074771
基于文本聚类的中文量化风格特征识别
“新闻广播”和“三个人之间的强强对话”的风格是不同的。 前者在广播,而后者在对话。 本文收集了这两个程序的语料,并选择了句子长度,单词长度和句子首字母词POS作为字符来生成文本向量。 并通过欧氏距离和病房算法对文本进行聚类。 分析表明,句子长度,单词长度和句子首字母词POS可以用作汉语定量文体特征。
所属分类:
其它
发布日期:2021-03-10
文件大小:547840
提供者:
weixin_38683721
基于文本聚类的中文量化风格特征及不同风格之间的关系研究
本研究的语料来自新闻联播,日常对话和文涛的头条新闻,它们分别代表正式的书面风格,口语风格和对话风格。 从预处理的语料库中选择句子长度,单词长度,词性(POS)和句子首字母词POS作为特征来生成文本向量,然后将其与PAM(围绕medoids进行划分)和Ward算法进行聚类。 聚类结果表明:(1)合理选择句子长度,词长,词性和词首词词性作为汉语定量文体特征。 (2)风格是一个两极分化的连续体,因为正式的书面风格和口语风格表现出双极性分布,而对话风格则介于口语风格之间和附近。
所属分类:
其它
发布日期:2021-03-10
文件大小:1048576
提供者:
weixin_38675506
Introduction-NLP:HanLP作者的新书《自然语言处理入门》详细笔记!业界良心之作,书中不是枯燥无味的公式罗列,甚至用白话分解的通俗易懂的算法模型。从基本概念出发,逐步介绍中文分词,词性标注,命名实体识别,信息删除,文本聚类,
简介-自然语言处理 汉良作者何晗老师的新书《自然语言处理入门》详细的笔记!业界良心之作,书中不是枯燥无味的公式罗列,甚至用白话分解的通俗易懂的算法模型。从基本概念出发,逐步介绍中文分词,词性标注,命名实体识别,信息删除,文本聚类,文本分类,句法分析这几个热门问题的算法原理与工程实现。 本项目初步帮助更多同路人能够快速的掌握NLP的专业知识,理清知识要点,在工作中发挥作用的作用。以书本为主,记录本人学习此书的心路历程,总结和笔记。 机器学习与深度学习请转至本人项目: HanLP项目: 思维导
所属分类:
其它
发布日期:2021-02-03
文件大小:6291456
提供者:
weixin_42150360
«
1
2
3
4
5
»