您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. ISODATA聚类matlab算法(带详细中文注释)

  2. 本资源是ISODATA聚类算法的matlab代码,其中包括isodata.m(ISODATA算法代码,其中包括了合并分裂等一系列子函数)、provaisodata.m(算法实例调用代码)和dades.mat(存放实例数据变量的文件)三个文件,并且每个函数都有详细的中文注释,而非原来的西班牙语注释。 ISODATA算法是在k-均值算法的基础上,增加对聚类结果的“合并”和“分裂”两个操作,并设定算法运行控制参数的一种聚类算法。全称:Iterative Selforganizing Data Ana
  3. 所属分类:其它

    • 发布日期:2010-04-19
    • 文件大小:9216
    • 提供者:design0535
  1. 大数据(Mining of Massive Datasets)

  2. 英文PDF版。 《大数据:互联网大规模数据挖掘与分布式处理》由斯坦福大学的“web 挖掘”课程的内容总结而成,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。其中相关章节有对应的习题,以巩固所讲解的内容。
  3. 所属分类:互联网

    • 发布日期:2012-09-29
    • 文件大小:1048576
    • 提供者:wangxm1983
  1. 大数据模式分解的隐私保护研究

  2. 现有的大多数隐私保护技术往往忽略了敏感属性不同取值和准标识符属性之间存在的特殊关联,并且各领域对于数据隐私保护的多方面要求,使得发布的匿名数据需要满足复合隐私约束。对近似敏感属 性值和复合隐私约束进行分析,提出了基于大数据模式分解和聚类分析的隐私保护算法。给出了聚类敏感 属性值保护相似值方法, 设置不同权重的敏感属性,保留重要的属性。使用三维不规则结构矩阵的效用矩 阵,来获取精度较高的匿名数据,实现匿名数据的模式分解。最后,在真实数据集上的大量实验结果表明, 该算法的数据精确率、数据纠错率都有
  3. 所属分类:其它

    • 发布日期:2012-12-06
    • 文件大小:654336
    • 提供者:xiaofeng1988
  1. 聚类在Web分析中的应用

  2. 在大数据时代,有人估计个人电脑里存储的信息平均价值为30万美元,信息资源已经成为衡量一个企业、一个团体、一个社会进步的重要因素。大数据,方方面面影响着人们的日常生活,决定着企业的盈亏。在科学研究领域,大数据时代突破传统的推理、实验、仿真三范式,带来了科技创新的第四范式---大数据分析。在如此海量的数据爆发的背景下,网页数据也与日俱增。如何对网页数据进行深入挖掘也成为人们日益关注的问题。本文使用聚类分析方法对Web新闻内容进行聚类,得到了属于同一类的新闻,在实验的基础上,我们得到了高关注度的新闻
  3. 所属分类:数据库

    • 发布日期:2014-03-26
    • 文件大小:958464
    • 提供者:luolailong
  1. 聚类分析阅读材料

  2. 内容指导: 1、基础的聚类方法:kmeans和等级聚类 2、dbscan方法以及其一些改进 3、混合正态下的EM算法及其变量选择 4、一个聚类变量选择的框架 5、对50年来kmeans聚类算法的非常好的综述。(提到能够解决各种问题的很多方法,参考文献很多,但是没有具体讲方法的步骤。)
  3. 所属分类:Java

    • 发布日期:2014-12-10
    • 文件大小:6291456
    • 提供者:demoscai
  1. 开源力量——数据挖掘原理与实战

  2. 整套大数据课程从hadoop入门开始,由浅入深,内置“hadoop源码解析与企业应用开发实战”,“Hive开发实战”,“Hbase开发实战”,“Spark,mahout,sqoop,storm诸模块开发实战”,“数据挖掘基础。这个系列课程有几个板块组成,所以学员可以按照自己的实际情况选择学习。例如,对于只需要了解hadoop基本编程的人,只需要选择“hadoop源码解析与企业应用开发实战”模块就可以了;对于立志于从事大数据领域的零起点人员,可以选择四个板块依次学习;对于已经有一定基础的hado
  3. 所属分类:Java

  1. 阿里巴巴大数据竞赛

  2. AliDMCompetition 阿里巴巴大数据竞赛(http://102.alibaba.com/competition/addDiscovery/index.htm ) 数据说明 提供的原始文件有大约4M左右,涉及1千多天猫用户,几千个天猫品牌,总共10万多条的行为记录。 用户4种行为类型(Type)对应代码分别为: 点击:0 购买:1 收藏:2 购物车:3 提交格式 参赛者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand
  3. 所属分类:专业指导

    • 发布日期:2016-01-05
    • 文件大小:550912
    • 提供者:huangyueranbbc
  1. 《深入理解大数据》一书的源代码

  2. 《深入理解大数据》一书的源代码,里面包含许多经典例子的代码,java实现,易读性强,包含MapReduce的K-Means聚类算法、KNN最近邻分类算法、朴素贝叶斯分类算法、决策树分类算法等,还有基于MapReduce的搜索引擎算法、大规模基因序列化比对算法、重复文档检测算法等
  3. 所属分类:Java

    • 发布日期:2016-01-30
    • 文件大小:23068672
    • 提供者:heming621
  1. 大数据挖掘技术与应用

  2. 本书针对数据的海量性、复杂性、高维性、模糊性和不完整性,对数据挖掘技术中的聚类分析和关联规则分析进行了系统的研究。设计与实现了基于密度和自适应密度可达聚类算法、基于簇特征的动态增量聚类算法、并行聚类算法、基于密度加权的模糊聚类算法、高唯复杂数据聚类算法、基于数据场的聚类算法、基于距离的量化关联规则和基于数据场的量化关联规则算法,给出了在矿产资源评价、遥感图像分类、矿业经济分析中的应用例证。全书共分11章,主要内容包括:绪论,基于密度和密度可达聚类分析,基于簇特征的动态增量聚类分析,并行聚类分析
  3. 所属分类:算法与数据结构

    • 发布日期:2018-01-08
    • 文件大小:113246208
    • 提供者:q1457797371
  1. 面向位置大数据的快速密度聚类算法

  2. 本文面向位置大数据聚类,提出了一种简单但高效的快速密度聚类算法CBSCAN,以快速发现位置大数据中任意形状的聚类簇模式和噪声.首先,定义了Cell网格概念,并提出了基于Cell的距离分析理论,利用该距离分析,无需距离计算,可快速确定高密度区域的核心点和密度相连关系;其次,给出了网格簇定义,将基于位置点的密度簇映射成基于网格的密度簇,利用排他网格与相邻网格的密度关系,可快速确定网格簇的包含网格;第三,利用基于Cell的距离分析理论和网格簇概念,实现了一个快速密度聚类算法,将DBSCAN基于数据点
  3. 所属分类:算法与数据结构

    • 发布日期:2018-06-20
    • 文件大小:4194304
    • 提供者:qq_28339273
  1. 基于Spark和聚类分析的辨识电力系统不良数据新方法

  2. 随着电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的Map Reduce框架不能有效处理频繁迭代计算等问题,提出一种基于Spark的并行K-means算法辨识不良数据的新方法。以某一节点电力负荷数据为研究对象,运用基于Spark的并行K-means聚类算法提取出日负荷特征曲线,分别对输电网状态估计中的不良数据进行检测和辨识。选用EUNITE提
  3. 所属分类:spark

    • 发布日期:2018-06-22
    • 文件大小:565248
    • 提供者:qq_28339273
  1. Spark 聚类ppt

  2. 公司内部讲解使用的ppt,主要介绍了聚类的用处、聚类的常见方法和spark中聚类的使用。
  3. 所属分类:机器学习

    • 发布日期:2018-08-09
    • 文件大小:6291456
    • 提供者:wzmfla
  1. 《RapidMiner数据分析与挖掘实战》第9章 K-Means 聚类、辨别分析

  2. 与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化,如图9 1所示。
  3. 所属分类:算法与数据结构

    • 发布日期:2018-06-30
    • 文件大小:370688
    • 提供者:qq_40370890
  1. 大数据与精准医疗

  2. 极限学习机(Extreme Learning Machine, ELM)是一类基于前馈神经网络(feedforward neuron network)的机器学习算法,其主要特点是隐含层节点参数可以是随机或人为给定的且不需要调整,学习过程仅需计算输出权重。ELM具有学习效率高和泛化能力强的优点,被广泛应用于分类、回归、聚类、特征学习等问题中。
  3. 所属分类:讲义

    • 发布日期:2018-11-05
    • 文件大小:36700160
    • 提供者:u012583095
  1. 基于灰色定权聚类的我国产煤省区安全生产水平分析

  2. 我国各产煤省区煤矿安全生产水平发展不平衡、差异较大,科学全面的评价煤矿安全生产水平对于把握煤矿安全生产现状具有重要的意义。选取2016年25个产煤省区5项相对指标数据,应用变异系数法和灰色定权聚类方法进行数据处理和计算,对产煤省区煤矿安全生产水平进行评价,根据评价结果,对产煤省区地理区域划分板块与生产规模划分板块煤矿安全生产水平进行评价。通过评价,得出各产煤省区煤矿安全生产水平排名和不同划分板块的煤矿安全生产水平差距较大的结论。结合影响煤矿安全生产的相关因素,阐述了制约不同产煤省区煤矿安全生产水
  3. 所属分类:其它

    • 发布日期:2020-05-01
    • 文件大小:192512
    • 提供者:weixin_38708361
  1. 清华大学-学堂在线-大数据机器学习课件笔记.zip

  2. 清华大学-学堂在线 大数据机器学习课件笔记系列:概述、机器学习的基本概念、模型性能评估、感知机、聚类、贝叶斯分类器及图模型、决策树和随机森林、逻辑斯谛回归与最大熵模型、支持向量机 SVM、核函数与非线性 SVM、降维与度量学习、提升方法 adaboost 算法、EM 算法及混合高斯模型、计算学习理论、隐马尔可夫模型和概率图模型、条件随机场、概率图模型的学习与推断、神经网络与深度学习、深度学习正则化方法、深度学习优化方法等。
  3. 所属分类:互联网

    • 发布日期:2020-05-29
    • 文件大小:52428800
    • 提供者:weixin_43595476
  1. 聚类算法在数据挖掘中的应用

  2. 聚类在数据挖掘、模式识别等许多领域有着重要的应用提出了一种新颖的聚类算法:一种基于最大不相含核心点集的聚类算法LSNCCP,在密度定义的基础上 ,考察核心点之间的距离关系 ,定义相含、相交、相离这 3 种核心点之间的关系 ,最后找出一个最大不相含核心点集 ,在此基础上进行聚类 ,并且找到解决丢失点问题的快速方法该最大不相含核心点集只是全部核心点集合的一个很小的子集 ,因此有效地缩减了同类算法中搜寻核心点的时间理论和实验上证明了这种算法的可行性和优越性。
  3. 所属分类:其它

    • 发布日期:2008-11-02
    • 文件大小:74752
    • 提供者:acd007
  1. python实现聚类算法原理

  2. 本文主要内容: 聚类算法的特点 聚类算法样本间的属性(包括,有序属性、无序属性)度量标准 聚类的常见算法,原型聚类(主要论述K均值聚类),层次聚类、密度聚类 K均值聚类算法的python实现,以及聚类算法与EM最大算法的关系 参考引用 先上一张gif的k均值聚类算法动态图片,让大家对算法有个感性认识: 其中:N=200代表有200个样本,不同的颜色代表不同的簇(其中 3种颜色为3个簇),星星代表每个簇的簇心。算法通过25次迭代找到收敛的簇心,以及对应的簇。 每次迭代的过程中
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:940032
    • 提供者:weixin_38506798
  1. 稀疏子空间聚类综述

  2. 稀疏子空间聚类(Sparse subspace clustering,SSC)是一种基于谱聚类的数据聚类框架.高维数据通常分布于若干个低维子空间的并上,因此高维数据在适当字典下的表示具有稀疏性.稀疏子空间聚类利用高维数据的稀疏表示系数构造相似度矩阵,然后利用谱聚类方法得到数据的子空间聚类结果.其核心是设计能够揭示高维数据真实子空间结构的表示模型,使得到的表示系数及由此构造的相似度矩阵有助于精确的子空间聚类.稀疏子空间聚类在机器学习、计算机视觉、图像处理和模式识别等领域已经得到了广泛的研究和应用,
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:1048576
    • 提供者:weixin_38526612
  1. 基于主成分分析和K-means聚类的平行坐标可视化技术研究

  2. 为了解决多维数据的维数过高、数据量过大带来的平行坐标可视化图形线条密集交叠以及数据规律特征不易获取的问题,提出基于主成分分析和K-means聚类的平行坐标(PCAKP,principal component analysis and k-means clustering parallel coordinate)可视化方法。该方法首先对多维数据采用主成分分析方法进行降维处理,其次对降维后的数据采用K-means聚类处理,最后对聚类得到的数据采用平行坐标可视化技术进行可视化展示。以统计局网站发布的数
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:1048576
    • 提供者:weixin_38701340
« 12 3 4 5 6 7 8 9 10 ... 15 »