您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 大数据可视化--联通用户活动规律可视化样本数据csv文件

  2. 【知识准备】 探索性数据分析的基本原理和方法;Python语言及相关包的运用;Pandas;Numpy;Matplotlib;Seaborn;Scikit-Leart。 【实训要求】 1、观察样本数据的结构和数据特征; 2、读取样本数据,观察样本数据结构和头尾各10行数据; 3、对样本数据进行分析,找出业务数据中的分布规律; 4、用可视化方法对分析结果进行展示。 5、观察并找出每个特征的样本数据的缺失值和异常值等并提出解决办法; 6、对样本数据进行预处理; 7、采集样本数据存入HBase数据库(
  3. 所属分类:Hadoop

    • 发布日期:2020-07-05
    • 文件大小:345088
    • 提供者:qq_38132105
  1. python数据预处理(1)———缺失值处理

  2. 在进行数据分析项目、比赛中,一手数据往往是脏数据。提高数据质量即数据预处理成为首要步骤,也会影响后期模型的表现。在此对利用Python进行预处理数据做一个总结归纳。 首先是缺失值处理。 #读取数据 import pandas as pd filepath= 'F:/...'#本地文件目录 df= pd.read_csv(train,sep=',')#df数据格式为DataFrame 查看缺失值 查看每一特征是否缺失及缺失值数量可能影响着处理缺失值的方法 df.isnull().sum() #查
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:58368
    • 提供者:weixin_38576811
  1. python数据预处理(1)———缺失值处理

  2. 在进行数据分析项目、比赛中,一手数据往往是脏数据。提高数据质量即数据预处理成为首要步骤,也会影响后期模型的表现。在此对利用Python进行预处理数据做一个总结归纳。 首先是缺失值处理。 #读取数据 import pandas as pd filepath= 'F:/...'#本地文件目录 df= pd.read_csv(train,sep=',')#df数据格式为DataFrame 查看缺失值 查看每一特征是否缺失及缺失值数量可能影响着处理缺失值的方法 df.isnull().sum() #查
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:58368
    • 提供者:weixin_38654315
  1. 【Python数据分析】文本情感分析——电影评论分析(一)

  2. 情感分析是文本分析的一种,它能够从一段文本描述中理解文本的感情色彩,是褒义、贬义还是中性。常见的情感分析的使用场景就是客户对商品或服务的评价、反馈,传统模式下的人工审核,不仅消耗大量人力,而且效率(速度和准确度)也不高。   这里使用Python对电影《哪吒之魔童降世》的评论进行文本分析,这种分析方式还可用于垃圾邮件的过滤、新闻的分类等场景。   分析步骤:   1、对文本数据进行预处理,包括文本缺失值重复值处理、分词、去除停用词、文本向量化。   2、描述性统计分析,统计词频、生成词云图。  
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:812032
    • 提供者:weixin_38632046
  1. python 数据分析–数据处理工具Pandas(1)

  2. 数据处理工具Pandas1. 序列和数据框的构造1.1 构造序列1.2 构造数据框2. Pandas从外部读取数据2.1 文本文件的读取2.2 电子表格的读取2.3 数据库的读取3. 数据描述统计 说明: 本文用到的数据集下载地址: 链接:https://pan.baidu.com/s/1zSOypUVoYlGcs-z2pT2t0w 提取码:z95a Pands模块可以帮助数据分析师轻松地解决数据的预处理问题,如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。Pandas模块的核心
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:561152
    • 提供者:weixin_38546024
  1. python数据分析实战之AQI分析

  2. 文章目录1、数据分析的基本流程2、明确需求和目的2.1 需求和目的3、数据收集4、数据预处理4.1 数据整合4.1.1 加载相关库和数据集4.1.2 数据总体概览4.2 数据清洗4.2.1 缺失值的处理4.2.2 异常值的处理4.2.3 重复值的处理5、数据分析5.1 描述性统计分析(1)哪些城市的空气质量较好/较差?(2)对城市的空气质量按照等级划分,每个等级城市数量分布情况如何?(3)空气质量在地里位置分布上,是否具有一定的规律性?5.2 推断统计分析(1)临海城市的空气质量是否有别于内陆城
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:316416
    • 提供者:weixin_38600253
  1. python数据分析实战之AQI分析

  2. 文章目录1、数据分析的基本流程2、明确需求和目的2.1 需求和目的3、数据收集4、数据预处理4.1 数据整合4.1.1 加载相关库和数据集4.1.2 数据总体概览4.2 数据清洗4.2.1 缺失值的处理4.2.2 异常值的处理4.2.3 重复值的处理5、数据分析5.1 描述性统计分析(1)哪些城市的空气质量较好/较差?(2)对城市的空气质量按照等级划分,每个等级城市数量分布情况如何?(3)空气质量在地里位置分布上,是否具有一定的规律性?5.2 推断统计分析(1)临海城市的空气质量是否有别于内陆城
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:316416
    • 提供者:weixin_38609128
  1. DS_project1:这与“ Udacity数据科学”课程的第二课有关。这是为了使我们为课程中的项目1做好准备-源码

  2. DS_project1 分析了2016年的西雅图Airbnb房源数据 目录 装置 该代码将在python 3中顺利运行。如果尚未安装,请安装ipynb以使用笔记本中的自定义功能。 pip install ipynb 项目动机 在这个项目中,我使用Seattle清单和日历数据来回答以下问题: 在不同的社区中注册了多少个列表? 不同地区的价格和清洁费有多少差异? 不同物业类型的价格和清洁费会有多少差异? 不同房型的价格和清洁费有多少不同? 价格在一年中如何变化(月和价格) 价格在月中如何变化(星期
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:26214400
    • 提供者:weixin_42168902
  1. Dissertation:毕业设计-主动学习推荐系统的实现-源码

  2. 主动学习推荐系统 0.概述 数据集: 编程环境:Python,Matlab,Markdown 1.数据预处理 商品信息 提取数据集中的标题和描述信息 命令: python item_information.py [file1, ..., file3] 用户物品评分信息 提取用户-物品评分,划分训练集和测试集 将火车集中的用户作为用户全集,以防止出现火车集中有用户没有评分的情况 命令: python user_information.py [file1, ..., file7] 商品相似度生成 标
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:27648
    • 提供者:weixin_42178963
  1. code_snippets:各种R和Python代码段-源码

  2. code_snippets 各种R和Python代码段。 这里包括: (1)一种写入数据帧的矢量化过程(例如,在数据集的预处理过程中填写缺失值时),比顺序遍历数据帧并替换单独发现的缺失值快100倍以上。 (2021年2月提交) (2)待定
  3. 所属分类:其它

    • 发布日期:2021-02-08
    • 文件大小:156672
    • 提供者:weixin_42126865
  1. python实现数据预处理之填充缺失值的示例

  2. 1、给定一个数据集noise-data-1.txt,该数据集中保护大量的缺失值(空格、不完整值等)。利用“全局常量”、“均值或者中位数”来填充缺失值。 noise-data-1.txt: 5.1 3.5 1.4 0.2 4.9 3 1.4 0.2 4.7 3.2 1.3 0.2 4.6 3.1 1.5 0.2 5 3.6 1.4 0.2 5.4 3.9 1.7 0.4 4.6 3.4 1.4 0.3 5 3.4 1.5 0.2 4.4 2.9 1.4 0.2 4.9 -3.1 1.5 0.1
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:83968
    • 提供者:weixin_38738977