您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 2017年最新机器学习入门与实战精品高清全套视频教程附讲义作业(anaconda2 4.3Pytyhon2.7 jupyter) 70课

  2. 2017年最新机器学习入门与实战精品高清全套视频教程附讲义作业(anaconda2 4.3Pytyhon2.7 jupyter) 70课 课程介绍: 从基本的软件安装到必备的Python扩展讲起,然后对机器学习算法一一讲解,同时配合编程实操的实现过程,适合零基础系统学习,配套资料包括讲义作业软件数据都有。 课程目录: 第一章Numpy前导介绍 1.1、Anconda安装 1.2、JupyterNoteBook 1.3、Numpy介绍+ndarry 1.4、ndarry的shape属性巧算 1.
  3. 所属分类:机器学习

    • 发布日期:2018-05-04
    • 文件大小:2048
    • 提供者:happyzhangdi008
  1. 全栈数据之门.rar

  2. 全栈数据很好的入门书籍,高清带书签。以数据分析领域最热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange 3来理解算法的一些细节。对于机器学习,既有常用算法kNN与Kmeans的应用,决策树与随机森林的实战,还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上,使用Spark的ML/MLlib库集成了前面的各部分内容,让分布式机器学习更容易。大量的工具与技能实战的介绍将各部
  3. 所属分类:spark

    • 发布日期:2019-06-21
    • 文件大小:16777216
    • 提供者:weixin_45289854
  1. 用于SparkStreaming的数据挖掘streamDM.zip

  2. streamDM,是由华为诺亚方舟实验室开源的使用 Spark Streaming 挖掘大数据的开源软件。大数据流学习大数据流学习(Big Data stream learning)比批量或离线学习更富有挑战性,因为数据在流动的过程中不太可能保持同一种分布。而且,数据流中的每一个样本只能被处理一次,否则它们就需要占用内存进行总结,同时该学习算法也必须非常高效。Spark StreamingSpark Streaming 是核心 Spark API 的一个扩展,它能让多个源的数据流处理成为可能。
  3. 所属分类:其它

    • 发布日期:2019-07-19
    • 文件大小:1048576
    • 提供者:weixin_39841856
  1. Python-基于DjangoRestframework和Spark的异常检测系统

  2. 基于Django Restframework和Spark的异常检测系统,数据库为MySQL、Redis, 消息队列为Celery,分析服务为Spark SQL和Spark Mllib,使用kmeans和随机森林算法对网络服务数据进行分析
  3. 所属分类:其它

    • 发布日期:2019-08-10
    • 文件大小:378880
    • 提供者:weixin_39840924
  1. 大数据简历,内含有数据项目的简历,大数据 简历

  2. 大数据详细项目简历: 离线项目:于用户行为标签的智能气象服务系统 个人职责: 1.运用Flume采集源数据,存放于Kafka消息队列中 2.采用Kstream框架对数据进行初步数据清洗与变换,使用Java API将数据导入HBase 3.使用Hive集成Hbase,对数据进行ETL,进一步清洗处理数据 4.协助使用Hive提取特征值,运用Spark ML构建模型 5.参与模型检验与随机森林算法调优 6.参与编写脚本文件将数据导出到MySQL中,运用Tableau工具进行可视化分析 参与编写部分O
  3. 所属分类:互联网

    • 发布日期:2020-04-28
    • 文件大小:31744
    • 提供者:qq_46359356
  1. Spark-ml-algo-lib:坤鹏机器学习库的开源代码-spark source code

  2. Spark-ml-算法库 介绍 运行在Kunpeng处理器上的机器学习算法库是一个加速库,它为机器学习算法提供了丰富的高级工具集。 它基于Apache 和的原始API。 加速库可大大提高大数据场景下的计算能力。 该库提供了九种机器学习算法:支持向量机(SVM),随机森林分类器(RFC),梯度提升决策树(GBDT),决策树(DT),K均值聚类,线性回归,逻辑回归算法,主成分分析(PCA),奇异值分解(SVD),潜在狄利克雷分配(LDA),前缀投影图案深度(Prefix-Span),交替最小二乘(
  3. 所属分类:其它

    • 发布日期:2021-03-24
    • 文件大小:282624
    • 提供者:weixin_42122340
  1. 使用机器学习的数据科学,薪水估计器:这个项目是我个人的经验,它与我的朋友自动化了机器学习算法,我们为了了解该项目的整个生命周期而建立了该算法。 该项目的主要目的是根据地理位置,工作年限等因素来确定数据科学员工的薪水。 这些项目的数据是从玻璃

  2. 数据科学薪酬估算器:项目概述 创建了一个估算数据科学人员薪水(MAE〜$ 11K)的工具,以帮助数据科学家在找到工作时就其收入进行协商。 使用python和selenium从glassdoor上刮取了1000多个工作描述,每个工作描述文本中的工程设计功能可量化公司对python,excel,aws和spark的重视程度。 使用GridsearchCV优化了线性,套索和随机森林回归,以达到最佳模型。 使用Flask构建面向客户的API 网页搜刮(* ) 调整了Web抓取器github repo
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:2097152
    • 提供者:weixin_42121086
  1. Spark随机森林算法原理、源码分析及案例实战

  2. 本文首先对决策树算法的原理进行分析并指出其存在的问题,进而介绍随机森林算法。同单机环境下的随机森林构造不同的是,分布式环境下的决策树构建如果不进行优化的话,会带来大量的网络IO操作,算法效率将非常低,为此本文给出了随机森林在分布式环境下的具体优化策略,然后对其源码进行分析,最后通过案例介绍随机森林在金融领域内如何进行优质客户的分类。Spark内存计算框架在大数据处理领域内占有举足轻重的地位,2014年Spark风靡IT界,Twitter数据显示Spark已经超越Hadoop、Yarn等技术,成为
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:929792
    • 提供者:weixin_38689976
  1. Spark随机森林算法原理、源码分析及案例实战

  2. 本文首先对决策树算法的原理进行分析并指出其存在的问题,进而介绍随机森林算法。同单机环境下的随机森林构造不同的是,分布式环境下的决策树构建如果不进行优化的话,会带来大量的网络IO操作,算法效率将非常低,为此本文给出了随机森林在分布式环境下的具体优化策略,然后对其源码进行分析,最后通过案例介绍随机森林在金融领域内如何进行优质客户的分类。Spark内存计算框架在大数据处理领域内占有举足轻重的地位,2014年Spark风靡IT界,Twitter数据显示Spark已经超越Hadoop、Yarn等技术,成为
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:929792
    • 提供者:weixin_38631599
  1. Spark随机森林算法原理、源码分析及案例实战

  2. 本文首先对决策树算法的原理进行分析并指出其存在的问题,进而介绍随机森林算法。同单机环境下的随机森林构造不同的是,分布式环境下的决策树构建如果不进行优化的话,会带来大量的网络IO操作,算法效率将非常低,为此本文给出了随机森林在分布式环境下的具体优化策略,然后对其源码进行分析,最后通过案例介绍随机森林在金融领域内如何进行优质客户的分类。Spark内存计算框架在大数据处理领域内占有举足轻重的地位,2014年Spark风靡IT界,Twitter数据显示Spark已经超越Hadoop、Yarn等技术,成为
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:929792
    • 提供者:weixin_38515270
  1. awesome-r:精选的R框架,库和软件的精选清单-源码

  2. 真棒 精选的R框架,库和软件的精选清单。 -R中图形语法的实现 R软件包,框架和软件的列表。 使用R轻松实现交互式Web应用程序 -dplyr:数据处理语法 :graduation_cap: 漩涡S软件包的交互式课程的集合。 使用R进行异常检测 数据科学R:一本书 使用R Markdown编写书籍和技术文档 R开发人员生活的工具 -R的动态文档 -R中动态报告生成的通用工具 -R的交互式图形库 关于二进制分类(随机)的顶级机器学习算法的常用开源实现(R包,Python sci
  3. 所属分类:其它

    • 发布日期:2021-02-11
    • 文件大小:39936
    • 提供者:weixin_42148053
  1. benchm-ml:用于二进制分类的顶级机器学习算法(随机森林,Rus,Python scikit-learn,H2O,xgboost,Spark MLlib等)的可扩展性,速度和准确性的最低基准。梯度增强树,深度神经网络等)-源码

  2. 用于分类的机器学习库的可伸缩性,速度和准确性的简单/有限/不完整基准 所有基准都是错误的,但有些是有用的 该项目旨在为一些机器学习算法的常用实现的可伸缩性,速度和准确性提供一个最低基准。 这项研究的目标是使用数字和分类输入(具有有限的基数,即不是很稀疏)并且没有丢失的数据进行二进制分类,这可能是业务应用程序中最常见的问题(例如,信用评分,欺诈检测或客户流失预测)。 如果输入矩阵的大小为n x p ,则n的变化范围为10K,100K,1M,10M,而p为〜1K(在将分类扩展为伪变量/一次编码后)。
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:313344
    • 提供者:weixin_42134537
  1. h2o-3:H2O是一个开源,分布式,快速且可扩展的机器学习平台:深度学习,梯度提升(GBM)和XGBoost,随机森林,广义线性建模(带有弹性网的GLM),K均值,PCA,广义附加模型(GAM),RuleFit,支持向量机(SVM),堆叠

  2. 水 H2O是用于分布式,可扩展的机器学习的内存平台。 H2O使用熟悉的界面(例如R,Python,Scala,Java,JSON和Flow笔记本/网络界面),并与Hadoop和Spark等大数据技术无缝协作。 H2O提供了许多流行实现,例如广义线性模型(GLM),梯度提升机(包括XGBoost),随机森林,深层神经网络,堆叠体,朴素贝叶斯,广义加性模型(GAM),考克斯比例危害,K-表示PCA,Word2Vec以及全自动机器学习算法( )。 H2O是可扩展的,因此开发人员可以添加自己选择的
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:92274688
    • 提供者:weixin_42126668
  1. Spark随机森林算法原理、源码分析及案例实战

  2. 本文首先对决策树算法的原理进行分析并指出其存在的问题,进而介绍随机森林算法。同单机环境下的随机森林构造不同的是,分布式环境下的决策树构建如果不进行优化的话,会带来大量的网络 IO操作,算法效率将非常低,为此本文给出了随机森林在分布式环境下的具体优化策略,然后对其源码进行分析,最后通过案例介绍随机森林在金融领域内如何进行优质客户的分类。Spark内存计算框架在大数据处理领域内占有举足轻重的地位,2014 年Spark风靡IT界,Twitter数据显示Spark已经超越
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:929792
    • 提供者:weixin_38567873
  1. Spark随机森林算法原理、源码分析及案例实战

  2. 本文首先对决策树算法的原理进行分析并指出其存在的问题,进而介绍随机森林算法。同单机环境下的随机森林构造不同的是,分布式环境下的决策树构建如果不进行优化的话,会带来大量的网络 IO操作,算法效率将非常低,为此本文给出了随机森林在分布式环境下的具体优化策略,然后对其源码进行分析,最后通过案例介绍随机森林在金融领域内如何进行优质客户的分类。Spark内存计算框架在大数据处理领域内占有举足轻重的地位,2014 年Spark风靡IT界,Twitter数据显示Spark已经超越
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:929792
    • 提供者:weixin_38751014
  1. 基于大数据分析的配电网辅助决策系统的研究

  2. 为高效、快速地处理配电网呈指数增长的数据,提高数据分析、决策能力,文中提出了1种基于大数据分析的配电网辅助决策系统设计。文中根据配电网业务需求特点,分别就流处理与批处理两种数据处理方式进行了分析。利用分布式计算通用框架 MapReduce 分别进行基于 Strom 的VFDT算法的构建,实现了流处理。同时利用 Spark 进行了随机森林算法的构建,实现了批处理。测试结果表明,基于Strom的VFDT算法可有效将数据进行分类,具有更好的分类准确率。此外,基于Spark的随机森林算法具有良好的可扩展
  3. 所属分类:其它

    • 发布日期:2021-01-12
    • 文件大小:1048576
    • 提供者:weixin_38730201