您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. LJCluster文本聚类技术中间件

  2. 文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成特征主题词。适用于自动生成热点*专题、重大新闻事件追踪、情报的可视化分析等诸多应用。 灵玖Lingjoin(www.lingjoin.com)基于核心特征发现技术,突破了传统聚类方法空间消耗大,处理时间长的瓶颈;不仅聚类速度快,而且准确率高,内存消耗小,特别适合于超大规模的语料聚类和短文本的语料聚类。 灵玖文档聚类组件的主要特色在于: 1、速度快:可以处理海量规模的网络文本数据,
  3. 所属分类:网络基础

    • 发布日期:2010-03-09
    • 文件大小:1048576
    • 提供者:lingjoin
  1. SAS数据挖掘白皮书

  2. 早期的计算机主要就是用来进行数据处理或称数值计算的。后来随着计算机技术及其周边设备和通讯能力的发展,计算机更多地用于了大量繁杂事务的在线处理,生产设备的实时控制等。在此过程中,计算机系统积累了越来越多的数据,数据处理的任务就更加繁重。到今天,即使是发展中的我们中国,在一个企业中有数以几十或上百GB、甚至TB计的生产经营数据已不是什么希奇的事情了。企业的数据和由此而产生的信息是企业的重要财富。它最真实、具体的反映了企业运作的本质状况。但是,面对堆积如“山”的数据,你可能并未看清企业运作的本质规律
  3. 所属分类:其它

    • 发布日期:2010-03-25
    • 文件大小:532480
    • 提供者:liema2000
  1. 基于数据挖掘的零售业客户细分研究

  2. 基于数据挖掘的零售业客户细分研究 ●叶孝明黄祖庆 摘要:文章根据基于购买行为的客户细分方法,运用数据挖掘中的聚类分析和决策树分类技术,对零售业客户细分 模型进行了研究、建立及实验分析,为零售业客户细分提供了一种有效而实用的分析方法。 关键词:零售业;客户细分;数据挖掘 客户细分是客户关系管理的基本任务之一,在目前客 户终生价值研究还没有成熟的情况下。采用基于购买行为 的客户细分方法不失为一种有效的选择。对于零售企业而 言.通过一定的技术将客户细分为不确定型客户、经常性 客户、乐于消费型客户和最
  3. 所属分类:餐饮零售

    • 发布日期:2010-10-14
    • 文件大小:408576
    • 提供者:gadflyyy
  1. Web 数据挖掘 zh_CN pdf

  2. 主要内容和研究成果如下: (1)首先对 Web 数据挖掘的概念、特点、难点、分类以及 Web 数据挖掘 的流程及其在电子商务中的应用优势都作了很详尽的论述。 (2) 研究了国内中小型电子商务网站服务器数据的特点和数据的物理意义, 并以此为依据寻找合适的方法对数据进行预处理。 针对电子商务网站的浏览用户 特点,将用户分成外部登录用户和内部系统用户来分析,为聚类分析和电子商务 应用研究提供可靠、有效的数据。 (3)在理解和掌握快速聚类算法的基础上,针对K-means 快速聚类算法的 优点和缺点,结
  3. 所属分类:其它

    • 发布日期:2011-05-25
    • 文件大小:666624
    • 提供者:zhaofeng987
  1. 聚类数据挖掘伪代码例子

  2. DIANA算法例子 第1步,找到具有最大直径的簇,对簇中的每个点计算平均相异度(假定采用是欧式距离)。 1的平均距离:(1+1+1.414+3.6+4.24+4.47+5)/7=2.96 类似地,2的平均距离为2.526;3的平均距离为2.68;4的平均距离为2.18;5的平均距离为2.18;6的平均距离为2.68;7的平均距离为2.526;8的平均距离为2.96。 挑出平均相异度最大的点1放到splinter group中,剩余点在old party中。 第2步,在old party里找出到
  3. 所属分类:其它

    • 发布日期:2011-10-24
    • 文件大小:612352
    • 提供者:gadflyyy
  1. 双聚类算法毕业设计的求解过程与结果【matlab软件】

  2. 双聚类算法是近年来提出的一种新的聚类方法,这种算法从思想上有别于传统的聚类算法,它主要强调在聚类时基因和条件聚类的同时性。 由于它具有诸多特性,它一出现就引起了各国科学研究学者的注意,并很快成为聚类领域的一个研究热点。其中Cheng and Church 算法又是其中最重要一种算法,其它算法都是从该算法演化而来。 本文在分析Cheng and Church 算法的基础上,对该算法进行了具体的实现。 同时对原算法第二阶段扩展空间过程进行了改进。改进后,在运行时间增加不多的条件下,试验的效果有了明
  3. 所属分类:软件测试

    • 发布日期:2012-11-22
    • 文件大小:934
    • 提供者:mmfile
  1. 大数据集快速均值漂移谱聚类算法

  2. 均值漂移谱聚类(MSSC)算法为模式识别聚类任务提供了一种较新的方案. 然而由于其内嵌均值漂移 过程的时间复杂度与样本容量呈平方关系, 其在大数据集环境的实用性受到大大削弱. 利用快速压缩集密度 估计器(FRSDE)替代Parren窗密度估计式(PW)并融合基于图的松弛聚类(GRC)方法, 提出了快速均值漂移谱聚 类(FMSSC)算法. 相比原MSSC, 该算法的总体渐进时间复杂度与样本容量呈线性关系, 并具有自适应性和便捷性.
  3. 所属分类:其它

    • 发布日期:2012-12-06
    • 文件大小:605184
    • 提供者:xiaofeng1988
  1. 开源力量——数据挖掘原理与实战

  2. 整套大数据课程从hadoop入门开始,由浅入深,内置“hadoop源码解析与企业应用开发实战”,“Hive开发实战”,“Hbase开发实战”,“Spark,mahout,sqoop,storm诸模块开发实战”,“数据挖掘基础。这个系列课程有几个板块组成,所以学员可以按照自己的实际情况选择学习。例如,对于只需要了解hadoop基本编程的人,只需要选择“hadoop源码解析与企业应用开发实战”模块就可以了;对于立志于从事大数据领域的零起点人员,可以选择四个板块依次学习;对于已经有一定基础的hado
  3. 所属分类:Java

  1. 一种改进的自适应快速AF-DBSCAN聚类算法

  2. 基于密度的DBSCAN聚类算法可以识别任意形状簇,但存在全局参数Eps与Min Pts的选择需人工干预,采用的区域查询方式过程复杂且易丢失对象等问题,提出了一种改进的参数自适应以及区域快速查询的密度聚类算法。根据KNN分布与数学统计分析自适应计算出最优全局参数Eps与Min Pts,避免聚类过程中的人工干预,实现了聚类过程的全自动化。通过改进种子代表对象选取方式进行区域查询,无需漏检操作,有效提高了聚类的效率。对4种典型数据集的密度聚类实验结果表明,本文算法使得聚类精度提高了8.825%,聚类
  3. 所属分类:互联网

    • 发布日期:2017-04-05
    • 文件大小:146432
    • 提供者:dwf_android
  1. 一种改进的BIRCH聚类算法

  2. B I R C H算法是一种适应于大规模数据集的聚类算法, 通过对所有叶节点设定统一阈值 来构建聚类特 征( c F ) 树, 并在各阶段采取不同的阈值来重建树, 但没有给出一个合理设定阈值初值 及如何在各阶段提升阈值大 小的具体方法。另外 B I R C H算法只能处理数值型数据, 这使其应用受到限制。针对以上不足, 对 B I R C H算法做 了以 下改进: 1 ) 改进原B I R C H算法的 C F结构, 使其可以处理混合型属性数据集; 2 ) 启发式为 B I R C H算法选择
  3. 所属分类:其它

    • 发布日期:2009-04-16
    • 文件大小:318464
    • 提供者:huangxia611
  1. 基于聚类和K近邻算法的井下人员定位算法

  2. 针对现有基于指纹模的井下定位算法存在的计算量大、实时性低、定位精度较低的问题,提出了基于聚类和K近邻算法的井下人员定位算法。用二分kmeans聚类算法对采集的RSSI数据进行分类,建立离线指纹数据库;无线移动终端和动态修正器实时采集RSSI值,分别存储到在线定位数据库和动态修正数据库;根据待测点和动态修正器的离线数据和实时数据,采用软硬件动态修正加权K近邻算法计算权重值,结合离线指纹数据库中待测点的物理位置信息估算其实时位置。实验分析结果表明,所提定位算法的最小标准误差为0.46 m,最大标准
  3. 所属分类:其它

    • 发布日期:2020-05-09
    • 文件大小:1048576
    • 提供者:weixin_38651540
  1. 大数据背景下基于广义DEA模型和​​R型聚类分析的P2P网络贷款风险评估研究

  2. 互联网金融风险不仅与互联网金融体系本身的运行和发展直接相关,而且由于其快速的发展速度和发展规模,对国家的宏观经济运行也具有非常重要的影响。 截至2017年2月,共有2335个网络贷款平台,其中存在55个问题平台。 该事件,类似于平台负责人潜逃资金,由于监管不严,信用风险等经常发生。 因此,科学地评估互联网的财务风险非常重要。 本文以排名前100位的P2P网络贷款平台风险控制为研究对象,获得了网络贷款家庭的等级认证。 评价指标体系由三个维度构成,分别为:流动性风险,市场风险和信用风险。 利用R型聚
  3. 所属分类:其它

    • 发布日期:2020-06-04
    • 文件大小:1048576
    • 提供者:weixin_38629042
  1. 一种K-means聚类算法的改进与应用

  2. K-means算法是基于距离作为相似性度量的聚类算法,传统的K-means算法存在难以确定中心值个数、受噪声及孤立点影响较大的缺点。对此,利用类间相异度与类内相异度改进初始值K,以尽量减少人工干预;同时计算数据库中每一点与剩余点的距离和距离均和,将两者的大小比较作为识别孤立点和噪声点的依据,从而删除孤立点,减少对数据聚类划分的影响。最后将改进后的K-means算法应用于入侵检测系统并进行仿真实验,结果表明,基于改进的K-means算法的入侵检测系统一定程度上降低了误报率及误检率,提高了检测的准确
  3. 所属分类:其它

    • 发布日期:2020-10-17
    • 文件大小:514048
    • 提供者:weixin_38717359
  1. 一种新的模糊聚类有效性指标

  2. 针对模糊C均值(FCM)算法聚类数需要预先设定的问题,提出了一种新的模糊聚类有效性指标。首先,计算簇中每个属性的方差,给方差较小的属性赋予较大的权值,给方差较大的属性赋予较小的权值,得到一种基于属性加权的FCM算法;然后,根据FCM改进算法得到的隶属度矩阵计算类内紧致性和类间分离性;最后,利用类内紧致性和类间分离性定义一个新的聚类有效性指标。实验结果表明,该指标可以找到符合数据自然分布的类的数目。基于属性加权的FCM算法可以识别不同属性的重要程度,增加聚类结果的准确率,使用FCM改进算法得到的隶
  3. 所属分类:其它

    • 发布日期:2020-10-16
    • 文件大小:246784
    • 提供者:weixin_38687539
  1. Python机器学习之K-Means聚类实现详解

  2. 本文为大家分享了Python机器学习之K-Means聚类的实现代码,供大家参考,具体内容如下 1.K-Means聚类原理 K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。其基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 算法大致流程为:(1)随机选取k个点作为种子点(这k个点不一定属于数据集
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:76800
    • 提供者:weixin_38743506
  1. 机器学习(聚类十)——谱聚类及代码实现

  2. 谱聚类是基于谱图理论基础上的一种聚类方法,与传统的聚类方法相比:具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。(但效率不高,实际工作中用的比较少) 谱聚类 通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据进行聚类的目的;其本质是将聚类问题转换为图的最优划分问题,是一种点对聚类算法。 谱聚类算法将数据集中的每个对象看做图的顶点 V,将顶点间的相似度量化为相应顶点连接边E的权值 w,这样就构成了一个基于相似度的无向加权图 G(V,E),于是聚类问题就转换为图的划分问题。
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:226304
    • 提供者:weixin_38748769
  1. 基于协同聚类方法的功率分配

  2. 协作通信(CC)允许中继节点帮助源节点同时将相同的数据传输到目标节点,后者以某种方式(例如MRC)正确地解码接收到的信号。 CC用于拓扑控制,因为它可以减少传输功率并扩大传输范围。 但是,以前关于CC在拓扑控制中的应用的所有研究都忽略了网络容量,只关注于保持网络连接性并最大程度地降低了总传输功率,这将导致网络性能下降甚至网络瘫痪。 为了解决这个问题,本文提出了一种在协作自组织网络中基于协作聚类的功率分配(CCPA)算法。 在CCPA中,没有CC则无法连接网络。 首先我们对网络进行群集,然后使群集
  3. 所属分类:其它

    • 发布日期:2021-03-24
    • 文件大小:1048576
    • 提供者:weixin_38692631
  1. 基于k-d树分区的聚类算法并行加速策略

  2. 针对传 统K-Means算法存在准确率低、聚类速度慢的问题,从K-Means算法优化和Flink框架并行层面对K-Means算法优化。为避免算法陷入局部最优解,采用质心间最大距离原则选出k个质心;为提高大数据量下的K-Means聚类速度,提出用k-d树算法划分数据集实现操作算子并行化,设置多个Task Manager数目和CPU核数加速F-Kmeans算法的执行。实验结果表明,较K-Means算法,F-Kmeans算法的准确率提高了约3.6%;F-Kmeans算法在DataSource耗时降低了
  3. 所属分类:其它

    • 发布日期:2021-03-07
    • 文件大小:929792
    • 提供者:weixin_38624315
  1. 基于距离最大化和缺失数据聚类的填充算法

  2. 通过对基于K-means聚类的缺失值填充算法的改进,文中提出了基于距离最大化和缺失数据聚类的填充算法。首先,针对原填充算法需要提前输入聚类个数这一缺点,设计了改进的K-means聚类算法:使用数据间的最大距离确定聚类中心,自动产生聚类个数,提高聚类效果;其次,对聚类的距离函数进行改进,采用部分距离度量方式,改进后的算法可以对含有缺失值的记录进行聚类,简化原填充算法步骤。通过对STUDENT ALCOHOL CONSUMPTION数据集的实验,结果证明了该算法能够在提高效率的同时,有效地填充缺失数
  3. 所属分类:其它

    • 发布日期:2021-01-28
    • 文件大小:1048576
    • 提供者:weixin_38727087
  1. 机器学习(聚类七)——层次聚类的优化算法

  2. 上篇博客介绍的层次聚类,尤其是AGNES这一传统的层次聚类算法。这篇博客介绍层次聚类的优化算法。 优化算法 BIRCH算法 BIRCH算法(平衡迭代削减聚类法):聚类特征使用3元组进行一个簇的相关信息,通过构建满足分枝因子和簇直径限制的聚类特征树来求聚类,聚类特征树其实是一个具有两个参数分枝因子和类直径的高度平衡树;分枝因子规定了树的每个节点的子女的最多个数,而类直径体现了对这一类点的距离范围;非叶子节点为它子女的最大特征值;聚类特征树的构建可以是动态过程的,可以随时根据数据对模型进行更新操作。
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:350208
    • 提供者:weixin_38616120
« 12 3 4 5 6 »