您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. LJCluster文本聚类技术中间件

  2. 文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成特征主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。 灵玖Lingjoin(www.lingjoin.com)基于核心特征发现技术,突破了传统聚类方法空间消耗大,处理时间长的瓶颈;不仅聚类速度快,而且准确率高,内存消耗小,特别适合于超大规模的语料聚类和短文本的语料聚类。 灵玖文档聚类组件的主要特色在于: 1、速度快:可以处理海量规模的网络文本数据,
  3. 所属分类:网络基础

    • 发布日期:2010-03-09
    • 文件大小:1048576
    • 提供者:lingjoin
  1. 改进性文本聚类资源研究

  2. 经典的文本聚类算法很多,K均值聚类算法是目前比较流行的一种基于划分的算法。该算法中文档 相似度计算通常采用向量空间模型,它们在假设术语间相互独立的基础上,通过逻辑表达式或向量间的 内积反映用户查询和文档的相似度,将查询结果按相似度的降序排列后提供给用户[1]。它们对用户的查 询项进行精确匹配,因此只能反映用户所要检索内容的某一方面,无法保证语义概念上的匹配。而且算法 效果与样本输入的次序和词频相关,只有当句子包含的词数足够多时,相关的词才会重复出现,其效果才 能体现出来,因此该算法只适合于词频
  3. 所属分类:其它

    • 发布日期:2010-05-17
    • 文件大小:190464
    • 提供者:nanaliv
  1. 数据挖掘--概念与技术

  2. 目录 第一章 引言 ......................................................................................................................................................... 8 1.1 什么激发数据挖掘?为什么它是重要的?.............................................................
  3. 所属分类:Web开发

    • 发布日期:2010-09-06
    • 文件大小:1048576
    • 提供者:huanghyw
  1. 软件工程-理论与实践(许家珆)习题答案

  2. 习 题 答 案 习题一答案 一、选择题 1. 软件的主要特性是(A B C)。 A) 无形 B) 高成本 C) 包括程序和文档   D) 可独立构成计算机系统 2. 软件工程三要素是(C D)。 A) 技术、方法和工具  B) 方法、工具和过程  C) 方法、对象和类  D) 过程、模型、方法 3. 包含风险分析的软件工程模型是(A)。 A) 螺旋模型 B) 瀑布模型 C) 增量模型 D) 喷泉模型 4. 软件工程的主要目标是(C)。 A) 软件需求  B) 软件设计  C) 风险分析  D)
  3. 所属分类:C

    • 发布日期:2011-01-12
    • 文件大小:303104
    • 提供者:fengjliang2009
  1. 非监督学习--keam聚类文档与算法

  2. 非监督学习--keam聚类文档与算法 matlab
  3. 所属分类:其它

    • 发布日期:2011-06-18
    • 文件大小:174080
    • 提供者:huandaohack
  1. 文本聚类算法的设计与实现

  2. 文本聚类算法的设计与实现文档相似度计算是一种常见的信息分类和信息挖掘方法,在信息检索、数据挖掘、机器翻译、相似性检测等领域有着广泛的应用
  3. 所属分类:Java

    • 发布日期:2014-04-25
    • 文件大小:463872
    • 提供者:baidu_14922881
  1. 毕业设计 基于Hbase的Bigtable系统的研究与实践

  2. 主要是自己大学时候的毕业设计,关于Hbase下用聚类算法写的一个搜索工具,实现了将文本存入数据库,然后进行搜索的算法。其中包括了word毕业设计文档,还有答辩的ppt,还有在linux平台下的java源码,希望对这方面有研究的朋友有帮助
  3. 所属分类:Java

    • 发布日期:2016-10-26
    • 文件大小:2097152
    • 提供者:zhouzhenyong
  1. 基于文档主题结构的关键词抽取

  2. 基于文档内部信息,利用文档的词聚类算法构建文档主题,进行关键词抽取。基于文档外部信息,利用隐含主题模型构建文档主题,进行关键词抽取。综合利用隐含主题模型和文档结构信息,进行关键词抽取。基于文档与关键词主题一致性的前提,提出基于机器翻译模型的关键词抽取方法。
  3. 所属分类:专业指导

    • 发布日期:2017-01-20
    • 文件大小:3145728
    • 提供者:w824429156
  1. KNN算法聚类(doc格式)

  2. 本文首先对比通用搜索引擎与主题搜索引擎的区别,总结主题搜索引擎的优点;然后介绍目前世界上主题搜索引擎技术的发展状况。接着,综述了面向主题中文搜索引擎的设计,详细介绍涉及该领域的三个核心技术:文档分类技术、中文处理技术和网页搜集预测技术。对于以上三种技术,我们在简述已知算法的基础上,都阐述了具体系统的实现方案。其中中文切词问题作为工作的重点,在文章中有比较详尽的介绍,包括中文处理的背景知识,中文切词软件的基本原理和中文切词词典的改进。
  3. 所属分类:其它

    • 发布日期:2009-04-08
    • 文件大小:352256
    • 提供者:hjjjl
  1. k-means聚类算法图像分割

  2. 运用K-means算法进行图像分割, K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 k个初始类聚类中心点的选取对聚类结果具有较大的 公式 公式 影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对
  3. 所属分类:机器学习

    • 发布日期:2018-04-18
    • 文件大小:307
    • 提供者:qq_34683252
  1. _基于改进K-means聚类的欠定盲分离算法

  2. 这篇文档是基于改进K-means聚类的欠定盲分离算法,利用K-M聚类算法与SCA算法结合,实现对欠定信号进行盲分离的目的。文中提出的算法是一种经典的算法上改进的,希望对做盲源分离的有一定帮助,在此希望大家多多共享,多多分享,共同进步。
  3. 所属分类:编解码

    • 发布日期:2018-07-03
    • 文件大小:1048576
    • 提供者:qq_41684641
  1. 唐宇迪配套案例实战 聚类算法

  2. 51CTO唐宇迪配套案例实战,聚类算法,包含解释文档与代码解析
  3. 所属分类:机器学习

    • 发布日期:2018-11-22
    • 文件大小:626688
    • 提供者:sinat_36165006
  1. 菜菜的scikit-learn课堂源码及文档.rar

  2. 菜菜的scikit-learn课堂源码及文档 菜菜的scikit-learn课堂01 sklearn入门 & 决策树在sklearn中的实现.pdf 菜菜的scikit-learn课堂02 随机森林在sklearn中的实现.pdf 菜菜的scikit-learn课堂03 sklearn中的数据预处理和特征工程.pdf 菜菜的scikit-learn课堂04 sklearn中的降维算法PCA和SVD.pdf 菜菜的scikit-learn课堂05 sklearn中的逻辑回归.pdf 菜
  3. 所属分类:算法与数据结构

    • 发布日期:2020-02-14
    • 文件大小:66060288
    • 提供者:cloud6688
  1. 基于Word2Vec的一种文档向量表示_唐明.pdf

  2. 基于Word2Vec的一种文档向量表示。在文本分类中,如何运用 word2vec词向量高效地表达一篇文档一直是一个难点。目前,将 word2vec模型与 聚类算法结合形成的doc2vec模型能有效地表达文档信息。但 是,这种方法很少考虑单个词对整篇文档的影响力。 为了解决这个问题,利用 TF-IDF算法计算每篇文档中词的权重,并结合 word2vec词向量生成文档向量,最后将其应 用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。
  3. 所属分类:机器学习

    • 发布日期:2020-02-13
    • 文件大小:348160
    • 提供者:zk12141985
  1. python实现k-means聚类算法

  2. k-means聚类算法 k-means是发现给定数据集的k个簇的算法,也就是将数据集聚合为k类的算法。 算法过程如下: 1)从N个文档随机选取K个文档作为质心 2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类,我们一般取欧几里得距离 3)重新计算已经得到的各个类的质心 4)迭代步骤(2)、(3)直至新的质心与原质心相等或迭代次数大于指定阈值,算法结束 算法实现 随机初始化k个质心,用dict保存质心的值以及被聚类到该簇中的所有data。 def initCent(dat
  3. 所属分类:其它

    • 发布日期:2020-12-25
    • 文件大小:74752
    • 提供者:weixin_38645434
  1. 通过具有实例级别约束的主动学习进行有效的半监督文档聚类

  2. 半监督文档聚类,考虑到有限的监督数据将未标记文档分组为聚类,最近引起了人们的极大兴趣。 由于获取监管数据可能会很昂贵,因此获取最丰富的信息以提高群集性能非常重要。 本文提出了一种半监督文档聚类算法和一种主动选择信息性实例级约束以提高聚类性能的新方法。 半监督文档聚类算法是约束DBSCAN(Cons-DBSCAN)算法,该算法结合了实例级约束来指导DBSCAN中的聚类过程。 提出了一种主动学习方法来选择信息性文档对,以获得用户反馈。 实验结果表明,在给定相对较少的约束条件下,Cons-DBSCAN
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:861184
    • 提供者:weixin_38742532
  1. 基于非负矩阵分解的双约束文本聚类算法

  2. 在正交三重NMF模型中,加入文本空间的成对约束信息和词空间的类别约束信息,将不同的特征词项进行分类。利用迭代规则对原始的词一文档矩阵进行分解,获得文本聚类结果。与多种传统半监督文本聚类算法的对比结果表明,该算法具有较高的聚类精度,能提供更准确和有效的聚类结果。
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:1048576
    • 提供者:weixin_38685832
  1. 一种基于谱分割的短文本聚类算法

  2. 短文本具有稀疏高维的特点,现有聚类算法在大规模短文本上的聚类精度较低且效率低下。针对该问题,提出一种以谱聚类理论作支撑,基于谱分割准则RMcut的新聚类算法。依据谱聚类理论,将短文本集合构建成一张带权无向图,并计算得到文档-文档的相似度矩阵,为聚类算法提供信息。不断迭代地用2-way方式划分该图,划分过程中使用RMcut值作为划分是否终止的条件,利用Prim算法将原图中的顶点加入到聚族中,以得到质量较高的聚类结果。实验结果表明,该算法具有较高的时间性能,与K-means算法、词共现聚类算法及基于
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:1048576
    • 提供者:weixin_38564503
  1. 地理学习:这是一个收集脚本和工具,旨在提供有关如何将Scikit-Learn与ArcGIS Pro集成和应用的模板。 分布的工具允许通过地理学习工具箱中的脚本工具访问各种机器学习算法。 这些工具主要是通过传递要进行聚类或分析的地理坐标和相关

  2. 发行摘要 这是一个收集脚本和工具,旨在提供有关如何将Scikit-Learn与ArcGIS Pro集成和应用的模板。 分布的工具允许通过GeoLearn工具箱中的脚本工具访问各种机器学习。 这些工具主要是通过传递要进行聚类或分析的地理坐标和相关数据来帮助完成空间分析任务,数据缩减或制图。 用法 所有工具都有PDF帮助文档,这些文档描述了所使用的算法以及用于使用脚本工具的参数。 帮助文档还具有指向sci-kit学习文档和其他相关页面的链接,以了解各种算法的工作方式。 有关Scikit-Learn
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:9437184
    • 提供者:weixin_42131352
  1. 区域相关融合纹理特征FDPC图书馆文档图像检索研究

  2. 当前在不同城市和地区,都在积极的进行数字图书馆建设。这一背景下,如何实现对各种图书馆资源的快速、准确检索,成为备受人们关注的重要问题。本文的研究过程中,以快速纹理密度极值的聚类算法为基础,提出一定的图像检索策略。文章对文档图像纹理特征检索与基于FDPC的文档图像纹理特征检索进行简要的分析,并通过实验,分析区域相关融合纹理特征FDPC图书馆文档图像检索问题。对图书馆图像资源检索问题进行基于内容的检索框架构建,然后采用直方均衡以及中值滤波策略实现图像资源的背景处理和噪声过滤,并通过二值化对图书馆馆藏
  3. 所属分类:其它

    • 发布日期:2021-01-26
    • 文件大小:2097152
    • 提供者:weixin_38588520
« 12 3 4 »