您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Spark 2.0.2 Spark 2.2 中文文档

  2. 本资源为网页,不是PDF Apache Spark 2.0.2 中文文档 Spark 概述 编程指南 快速入门 Spark 编程指南 概述 Spark 依赖 Spark 的初始化 Shell 的使用 弹性分布式数据集(RDDS) 并行集合 外部数据集 RDD 操作 RDD 持久化 共享变量 Broadcast Variables (广播变量) Accumulators (累加器) 部署应用到集群中 使用 Java / Scala 运行 spark Jobs 单元测试 Spark 1.0 版本前
  3. 所属分类:spark

    • 发布日期:2017-12-07
    • 文件大小:62
    • 提供者:huoyongjie698
  1. 第三讲 数据预处理[Pandas实践]

  2. Pandas数据分析 普林大数据学院 普 林 大 数 据 学 院 P R I N C E T E C H S B I G D A T A C O L L E G E 2 3 目录 第一部分 文件读写 第二部分 变量离散化 第三部分 缺失值填补 普林大数据学院 普 林 大 数 据 学 院 P R I N C E T E C H S B I G D A T A C O L L E G E 第四部分 数据标准化 第五部分 数据合并 第六部分 数据组合 第七部分 数字编码 第八部分 OneHot编码
  3. 所属分类:其它

    • 发布日期:2018-09-18
    • 文件大小:2097152
    • 提供者:weixin_43202298
  1. Pandas中DataFrame基本函数整理(小结)

  2. 构造函数 DataFrame([data, index, columns, dtype, copy]) #构造数据框 属性和数据 DataFrame.axes #index: 行标签;columns: 列标签 DataFrame.as_matrix([columns]) #转换为矩阵 DataFrame.dtypes #返回数据的类型 DataFrame.ftypes #返回每一列的 数据
  3. 所属分类:其它

    • 发布日期:2020-12-17
    • 文件大小:70656
    • 提供者:weixin_38709466
  1. python2与python3中关于对NaN类型数据的判断和转换方法

  2. 今天在对一堆新数据进行数据清洗的时候,遇到了一个这样的问题: ValueError: cannot convert float NaN to integer 一开始是这样的,我用的jupyter是python35的,使用DataFrame读入了数据,其中有一列是year,默认读入时是将year这一列转换为了float,所以就有了这样的现象: 年份都是float类型了,看得我强迫症都犯了。于是通过这样的代码来进行强转,于是就报了上面的错误了。 df.year = [int(y) for y
  3. 所属分类:其它

    • 发布日期:2020-12-25
    • 文件大小:51200
    • 提供者:weixin_38735899
  1. 对pandas中to_dict的用法详解

  2. 简介:pandas 中的to_dict 可以对DataFrame类型的数据进行转换 可以选择六种的转换类型,分别对应于参数 ‘dict’, ‘list’, ‘series’, ‘split’, ‘records’, ‘index’,下面逐一介绍每种的用法 Help on method to_dict in module pandas.core.frame: to_dict(orient='dict') method of pandas.core.frame.DataFrame instance
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:57344
    • 提供者:weixin_38618521
  1. python pandas中DataFrame类型数据操作函数的方法

  2. python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。 1)查看DataFrame数据及属性 df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj['列名'].astype(int)#转换某列的数据类型 df_obj.head() #查看前几行的数据,默认前5行 df_obj.tail() #查看后
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:73728
    • 提供者:weixin_38714641
  1. Pandas中把dataframe转成array的方法

  2. 使用 df=df.values, 可以把Pandas中的dataframe转成numpy中的array 以上这篇Pandas中把dataframe转成array的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持软件开发网。 您可能感兴趣的文章:详解将Pandas中的DataFrame类型转换成Numpy中array类型的三种方法pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:24576
    • 提供者:weixin_38719635
  1. python 数据分析–数据处理工具Pandas(1)

  2. 数据处理工具Pandas1. 序列和数据框的构造1.1 构造序列1.2 构造数据框2. Pandas从外部读取数据2.1 文本文件的读取2.2 电子表格的读取2.3 数据库的读取3. 数据描述统计 说明: 本文用到的数据集下载地址: 链接:https://pan.baidu.com/s/1zSOypUVoYlGcs-z2pT2t0w 提取码:z95a Pands模块可以帮助数据分析师轻松地解决数据的预处理问题,如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。Pandas模块的核心
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:561152
    • 提供者:weixin_38546024
  1. Pandas数据处理学习笔记完整(待更)

  2. 这里写目录标题pandas文件读写1.1读取文本文件1.2 文本文件存储1.3 读取Excel文件1.4 Excel文件存储二 Series2.1 创建Series对象2.2 Series基本操作2.3 Series小结三 DataFrame3.1 DataFrame基本操作:3.2 numpy中的描述性统计函数3.3 Pandas中数值型特征的描述性统计方法3.4 DataFrame数据:类别型特征的描述性统计四 转换与处理时间序列数据4.1 转换字符串时间为标准时间 pandas文件读写 P
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:1048576
    • 提供者:weixin_38693476
  1. pandas基础——文件读取与写入、基本数据结构、常用基本函数、排序、总结练习

  2. 快速浏览pandas简单介绍和本系列说明一、csv、txt、xls或xlsx文件读取与写入1. 读取与写入csv格式2. 读取与写入txt格式3. 读取与写入xls或xlsx格式二、基本数据结构1. SeriesSeries创建访问Series属性Series调用方法2. DataFrameDataFrame创建DataFrame修改行/列名DataFrame调用属性和方法“索引对齐特性”DataFrame列的删除/增加DataFrame根据类型选择列DataFrame转置Series转换为Da
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:289792
    • 提供者:weixin_38621630
  1. 详解将Pandas中的DataFrame类型转换成Numpy中array类型的三种方法

  2. 在用pandas包和numpy包对数据进行分析和计算时,经常用到DataFrame和array类型的数据。在对DataFrame类型的数据进行处理时,需要将其转换成array类型,是以下列出了三种转换方法。 首先导入numpy模块、pandas模块、创建一个DataFrame类型数据df import numpy as np import pandas as pd df=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]}) 1.使用DataFr
  3. 所属分类:其它

    • 发布日期:2020-12-26
    • 文件大小:68608
    • 提供者:weixin_38686231
  1. geopandas:用于地理数据的Python工具-源码

  2. 熊猫 用于地理数据的Python工具 介绍 GeoPandas是一个向对象添加对地理数据的支持的项目。 目前,它实现了GeoSeries和GeoDataFrame类型,它们分别是pandas.Series和pandas.DataFrame子类。 GeoPandas对象可以作用于几何对象,并执行几何运算。 GeoPandas的几何运算是笛卡尔的。 坐标参考系(crs)可以作为属性存储在对象上,并且在从文件加载时会自动设置。 可以使用to_crs()方法将对象转换为新的坐标系。 当前没有执行类似
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:5242880
    • 提供者:weixin_42177768
  1. 芝加哥出租车行程分析:使用AWS EMR,Spark,PySpark,Zeppelin和Airbnb的Superset分析芝加哥市区出租车行程数据集-源码

  2. 总览 使用AWS EMR,Spark,PySpark,Zeppelin和Airbnb的Superset分析芝加哥市区出租车行程数据集 芝加哥市出租车旅行数据集 步骤1:数据整形/合并 分析原始数据 执行基本转换 重命名列 数据类型变更 添加新列 筛选行 筛选栏 执行基本数据处理并将Spark DataFrame保存为Parquet格式。 以下是所有转换后的Spark DataFrame模式。 root | -- TripID: string (nullable = true) | -- T
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:963584
    • 提供者:weixin_42165490
  1. NimData:用Nim编写的DataFrame API,可实现快速的核外数据处理-源码

  2. NimData 用Nim编写的DataFrame API,可实现的内核外数据处理。 NimData受到Pandas / Spark / Flink / Thrill等框架的启发,位于Pandas与Spark / Flink / Thrill一方之间。 与Pandas相似,NimData当前是非分布式的,但共享Spark / Flink / Thrill的类型安全的惰性API。 多亏了Nim,它才能以本机速度进行优雅的内核外处理。 文献资料 NimData的核心数据类型是通用DataFrame
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:287744
    • 提供者:weixin_42102401
  1. pandas DataFrame创建方法的方式

  2. 在pandas里,DataFrame是最经常用的数据结构,这里总结生成和添加数据的方法: ①、把其他格式的数据整理到DataFrame中; ②在已有的DataFrame中插入N列或者N行。 1. 字典类型读取到DataFrame(dict to DataFrame) 假如我们在做实验的时候得到的数据是dict类型,为了方便之后的数据统计和计算,我们想把它转换为DataFrame,存在很多写法,这里简单介绍常用的几种: 方法一:直接使用pd.DataFrame(data=test_dict)即
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:91136
    • 提供者:weixin_38563871
  1. DataFrame中的object转换成float的方法

  2. 数据类型转换: 今天遇到一个问题,就是DataFrame类型的数据里是str型的数字,想把数字转换为int 或float;百度没有发现好的,也可能输入的关键字不对,找不到; DataFrame.info()之后发现数据全是object 之前有一个方法就是: 先traindata=np.array(traindata,dtype=np.float)之后在 traindata=pd.DataFrame(traindata)转换 但看着很繁琐,突发奇想,试到了下面的方法,一句就搞定得意得意 trai
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:49152
    • 提供者:weixin_38694141
  1. spark: RDD与DataFrame之间的相互转换方法

  2. DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架,但其经过了优化。DataFrames可以从各种各样的源构建,例如:结构化数据文件,Hive中的表,外部数据库或现有RDD。 DataFrame API 可以被Scala,Java,Python和R调用。 在Scala和Java中,DataFrame由Rows的数据集表示。 在Scala API中,DataFrame只是一个类型别名Dataset[Row]。而在Java API中,用户需要
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:57344
    • 提供者:weixin_38577378
  1. 基于matplotlib对iris数据集进行数据分析

  2. iris介绍 iris数据集也称鸢尾花数据集。包括150个数据样本,分为三类,每类五十个数据,每个数据具有四个属性,可通过四个属性预测鸢尾花属于哪一类。 用到的python库 matplotlib、pandas、sklearn、seaborn /这里因为我没有下载iris数据集,所以从sklearn里面导入,如果有数据集则用pandas.read_csv打开即可。/ 有了数据集以后就直接作图等操作就好了。 let‘s go! 导入数据集,看看数据集长啥样子。 把数据集转换为pandas的Dat
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:181248
    • 提供者:weixin_38638647
  1. 【Python】Pandas中DataFrame基本函数及举例整理

  2. 本文部分网络整理,部分个人整理 目录介绍Pandas中DataFrame基本函数整理(全)构造数据框属性和数据类型转换索引和迭代二元运算函数应用&分组&窗口描述统计学从新索引&选取&标签操作处理缺失值从新定型&排序&转变形态Combining& joining&merging时间序列作图转换为其他格式例子导入包pandas.DataFramepandas.DataFrame.dtypespandas.DataFrame.headpandas.DataFrame.tailpandas.DataF
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:536576
    • 提供者:weixin_38640473