您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 菊安酱的机器学习第1期-k-近邻算法(直播).pdf

  2. k-近邻算法的课件。来自于菊安酱的机器学习实战12期的免费教程。内涵python源码。菊安酱的直播间: 我们已经知道k近邻算法的工作原理,根据特征比较,然后提取样本集中特征最相似数据(最近邻)的分类标签。 那么如何进行比较呢?比如表1中新出的电影,我们该如何判断他所属的电影类别呢?如图2所示。 电影分类 120 爱情片(1,101) 爱情片(12,97) 80 爱情片(5,89) 水弊 60 ?(24,67) 动作片(112,9 20 动作片(1158) 动作片(108,5) 0 20 60 8
  3. 所属分类:讲义

    • 发布日期:2019-07-27
    • 文件大小:867328
    • 提供者:qiu1440528444
  1. 大数据可视化--联通用户活动规律可视化样本数据csv文件

  2. 【知识准备】 探索性数据分析的基本原理和方法;Python语言及相关包的运用;Pandas;Numpy;Matplotlib;Seaborn;Scikit-Leart。 【实训要求】 1、观察样本数据的结构和数据特征; 2、读取样本数据,观察样本数据结构和头尾各10行数据; 3、对样本数据进行分析,找出业务数据中的分布规律; 4、用可视化方法对分析结果进行展示。 5、观察并找出每个特征的样本数据的缺失值和异常值等并提出解决办法; 6、对样本数据进行预处理; 7、采集样本数据存入HBase数据库(
  3. 所属分类:Hadoop

    • 发布日期:2020-07-05
    • 文件大小:345088
    • 提供者:qq_38132105
  1. Pandas替换及部分替换(replace)实现流程详解

  2. 在处理数据的时候,很多时候会遇到批量替换的情况,如果一个一个去修改效率过低,也容易出错。replace()是很好的方法。 源数据 1、替换全部或者某一行 replace的基本结构是:df.replace(to_replace, value) 前面是需要替换的值,后面是替换后的值。 例如我们要将南岸改为城区: 将南岸改为城区 这样Python就会搜索整个DataFrame并将文档中所有的南岸替换成了城区(要注意这样的操作并没有改变文档的源数据,要改变源数据需要使用inplace = True)
  3. 所属分类:其它

    • 发布日期:2020-12-16
    • 文件大小:242688
    • 提供者:weixin_38570459
  1. pandas数据处理基础之筛选指定行或者指定列的数据

  2. pandas主要的两个数据结构是:series(相当于一行或一列数据机构)和DataFrame(相当于多行多列的一个表格数据机构)。 本文为了方便理解会与excel或者sql操作行或列来进行联想类比 1.重新索引:reindex和ix 上一篇中介绍过数据读取后默认的行索引是0,1,2,3…这样的顺序号。列索引相当于字段名(即第一行数据),这里重新索引意思就是可以将默认的索引重新修改成自己想要的样子。 1.1 Series 比方说:data=Series([4,5,6],index=[‘a’,’b
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:268288
    • 提供者:weixin_38625559
  1. Pandas数据处理(一)

  2. Pandas数据处理(一) import pandas as pd import numpy as np #利用numpy生成一组DataFrome数据 df=pd.DataFrame(np.arange(16).reshape(4,4)) print(df) –out 0 1 2 3 0 0 1 2 3 1 4 5 6 7 2 8 9 10 11 3 12 13 14 15 #我们看到有一行,竖我们没有指定没结果却出现了, #那因
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:31744
    • 提供者:weixin_38693753
  1. pyqt5 的多线程(QThread)遇到的坑(二)

  2. 前言 前面在pyqt5多线程(QThread)遇到的坑(一)中提到了先实例化类,再把实例对象传参到线程类,这样的确实可行,但是还是遇到了新坑。 pyqt5多线程(QThread)遇到的坑(一 起因 被实例化的类是做数据处理的,传入和导出的的数据比较大,最少都是几万行的excel表格数据(pandas.DataFrame),而且传入的数据最少两个pandas.DataFrame表,多的时候会传入7个,而且有一些数据是公共数据,每次处理都必须处理的,直接放在数据处理类的初始化__init__中了,而
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:61440
    • 提供者:weixin_38577261
  1. Pandas——concat(合并)

  2. 文章目录1.前言2.垂直合并(axis = 0)3.join(合并方式)4.join_axes5.append (添加数据) 1.前言 pandas处理多组数据的时候往往会要用到数据的合并处理,使用 concat是一种基本的合并方式.而且concat中有很多参数可以调整,合并成你想要的数据形式. 2.垂直合并(axis = 0) axis=0是预设值,因此未设定任何参数时,函数默认axis=0 import pandas as pd import numpy as np df1 = pd.Dat
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:47104
    • 提供者:weixin_38680308
  1. 数据处理第一步:清洗和提炼

  2. 数据清洗的概念和方法总结 部分代码练习 1.数据清洗的概念和方法总结 2.部分代码练习 其中包含: 2.1识别和处理缺失值 2.2数据标准化 2.3数据归一化 2.4查看数据分布的分箱和指标变量 数据清洗的目的:将数据转化为一种方便分析的格式 首先导入数据 !pip install pandas==0.25.0 import pandas as pd#添加库 df = pd.read_csv("地址", names = headers)#导入数据 df.head()#查看dataframe前5
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:81920
    • 提供者:weixin_38552871
  1. python数据预处理(1)———缺失值处理

  2. 在进行数据分析项目、比赛中,一手数据往往是脏数据。提高数据质量即数据预处理成为首要步骤,也会影响后期模型的表现。在此对利用Python进行预处理数据做一个总结归纳。 首先是缺失值处理。 #读取数据 import pandas as pd filepath= 'F:/...'#本地文件目录 df= pd.read_csv(train,sep=',')#df数据格式为DataFrame 查看缺失值 查看每一特征是否缺失及缺失值数量可能影响着处理缺失值的方法 df.isnull().sum() #查
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:58368
    • 提供者:weixin_38576811
  1. python数据预处理(1)———缺失值处理

  2. 在进行数据分析项目、比赛中,一手数据往往是脏数据。提高数据质量即数据预处理成为首要步骤,也会影响后期模型的表现。在此对利用Python进行预处理数据做一个总结归纳。 首先是缺失值处理。 #读取数据 import pandas as pd filepath= 'F:/...'#本地文件目录 df= pd.read_csv(train,sep=',')#df数据格式为DataFrame 查看缺失值 查看每一特征是否缺失及缺失值数量可能影响着处理缺失值的方法 df.isnull().sum() #查
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:58368
    • 提供者:weixin_38654315
  1. Python大作业准备(一)

  2. Python大作业 / 爬虫+可视化(day1) 开始搞python大作业了,纯手敲,可参考,不可直接copy 思路:对全国各省的地区生产总值进行爬取,并可视化展示 爬取网站: http://data.stats.gov.cn/ 所用库:time,re,selenium,pandas,matplotlib,bs4,csv 结果展示:静态(如果时间够的话准备下动态的吧) 爬取过程:动态模拟鼠标+静态分析 可视化过程:数据处理+matplotlib绘图 数据爬取部分: import time imp
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:424960
    • 提供者:weixin_38567813
  1. 组队学习2:Pandas索引(一)(基于Python)

  2. 组队学习介绍   最近事情太多(以及人太懒),好久没有空更新博客,遂报名公众号Datawhale的Pandas学习小组来督促自己学习。学习小组的目的主要是细致地学习Python中的第三方模块Pandas,该模块用于数据导入及整理的模块,对数据挖掘前期数据的处理工作十分有用。   学习小组的时间安排大致如下: Task01:Pandas基础(1天) Task02:索引(3天) Task03:分组(2天) Task04:变形(2天) Task05:合并(2天) Task06:综合练习(1天)   学
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:854016
    • 提供者:weixin_38656374
  1. python数据清洗实战入门笔记(一)numpy和pandas

  2. 第一章:数据清洗常用工具1.numpy常用数据结构常用清洗工具:numpy常用数据结构:Numpy常用方法数组访问方法练习(jupyter)代码下面是结果2.Numpy常用数据清洗函数数据的排序数据的搜索练习(jupyter)代码下面是结果3.Pandas常用数据结构series和dataframeseriesdataframe常用方法练习(jupyter)代码下面是结果 1.numpy常用数据结构 常用清洗工具: 目前在Python中, numpy和pandas是最主流的工具 Numpy中的向
  3. 所属分类:其它

    • 发布日期:2020-12-20
    • 文件大小:610304
    • 提供者:weixin_38722944
  1. Python数据分析(8)—-用Pandas实现数据分层抽样

  2. 在进行数据处理时,我们有时需要在大量的样本中抽取出部分数据作为数据集进行模型训练或者模型验证,因此在本文中介绍分层抽样方法的python代码实现。 分层抽样: 分层抽样法也叫类型抽样法。它是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。这种方法的优点是,样本的代表性比较好,抽样误差比较小。缺点是抽样手续较简单随机抽样还要繁杂些。定量调查中的分层抽样是一种卓越的概率抽样方式,在调查中经常被使用。 本例说明: 本例中用到的数据是高分一号遥感数据,数
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:214016
    • 提供者:weixin_38633897
  1. matplotlib 图形化分析猪肉价格上涨趋势,pandas数据处理

  2. 1.爬取新发地果蔬价格csv,上一张的内容,爬取新发地果蔬价格保存为CSV格式,筛选出毛猪白条猪, 2.筛选分析猪肉的价格,利用matplotlib库生产趋势图. #pandas import pandas as pd #导入数据处理工具pandas import matplotlib.pyplot as plt#导入图形化显示工具matplotlib dataframe = pd.read_csv(新发地菜价.csv,header=None) #print(dataframe) #拿到数据
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:109568
    • 提供者:weixin_38516706
  1. NumPy入门笔记(一)

  2. NumPy是Python的一个科学计算库,提供了矩阵计算的功能。Pandas对NumPy库进行了二次封装,提供了更强大的功能。 NumPy可用来存储和处理大型矩阵,比Python自身的数据结构(字符串,队列,元组,字典)更高级。NumPy的主要对象是一个多维度的,均匀的多维数组,可以进行矩阵运算。 1.创建矩阵 2.ndarray对象属性 3.矩阵的截取 创建矩阵 (1) 直接赋值创建矩阵 import numpy as np #创建一维数组 arr1=np.array([1,2,3,4,5])
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:51200
    • 提供者:weixin_38635166
  1. 解析数据处理:基于Pandas数据框的一组用于处理СSV文件的工具,可以对文本进行潜在的语义分析-源码

  2. 解析数据处理(使用LSA) 一套基于Pandas数据框的СSV文件处理工具,可能对文本进行潜在的语义分析。 一组用于处理通过解析网页获得的DSV表格数据的工具。 发布时间: 按关键字删除数据行 通过CSV文件中的预标记关键字列表删除数据行 删除关键字 对所选数据列的潜在语义分析(聚类结果并不总是正确的,需要实验方法)。 将LSA群集标签分配给数据行。 保存CSV 快速开始: CSV文件的路径(文件编码必须为UTF-8,以“;”分隔)。 DIR = 'test_dataset.cs
  3. 所属分类:其它

    • 发布日期:2021-02-10
    • 文件大小:38912
    • 提供者:weixin_42139460
  1. Pandas数据处理(二)

  2. 续上一篇,喜欢python的朋友请持续关注,共同成长 微信公众号“青少年思维训练营”,请关注! #切片处理 #pandas取行或者列的注意事项 #方括号中如果是字符串,取列 print(df[‘name’]) –out 0 小猫 1 小狗 2 小狼 #方括号中如果是数字,取行 print(df[:2]) #取第一行到第二行 –out Id name sex 0 001 小猫 女 1 002 小狗 男 #混合是取行列 #取第一行到第二行得’name’这一
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:32768
    • 提供者:weixin_38749268
  1. pandas操作指南(超级详细!!!)

  2. 引言:最近pandas好久不用忘光光先写一点备着,以后实时更新防止自己忘掉,都是pandas最基本的概念 pandas常用操作前期准备文件读取和保存普通保存类型切换保存保存时的设置参数大文件读取数据处理数据预处理数据选取数据缺失数据去重数据替换数据分组数据聚合数据规整数据合并连接数据索引分层apply和map函数时间处理正则表达式另外一些函数(sum,count)典型筛选案例 前期准备 这里先提供一组数据集 data = { 'state':['Ohio2','Ohio2','Ohio
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:114688
    • 提供者:weixin_38723683
  1. 组队学习6:综合题(一)(基于Python)

  2. 组队学习介绍   最近事情太多(以及人太懒),好久没有空更新博客,遂报名公众号Datawhale的Pandas学习小组来督促自己学习。学习小组的目的主要是细致地学习Python中的第三方模块Pandas,该模块用于数据导入及整理的模块,对数据挖掘前期数据的处理工作十分有用。   学习小组的时间安排大致如下: Task01:Pandas基础(1天) Task02:索引(3天) Task03:分组(2天) Task04:变形(2天) Task05:合并(2天) Task06:综合练习(1天)   学
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:87040
    • 提供者:weixin_38600696
« 12 3 4 »