pandas库的常用操作,参考书籍《Pandas Cookbook》,内容干货,推荐下载!movie get_dtype_counts# output the number of columns with each specific data type:
movie. select_dtypes(include['int ]).head(# select only integer columns
movie. filter(1ike=' facebook').head()#1ike参数表示包含此
有的时候,可能会遇到表格中出现重复的索引,在操作重复索引的时候可能要注意一些问题。
一、判断索引是否重复
a、Series索引重复判断
s = Series([1,2,3,4,5],index=["a","a","b","b","c"])
print(s.index.is_unique)
#False
Series.index.is_unique为False表示索引重复。
b、DataFrame索引重复判断
a = np.arange(9).reshape(3,3)
data = Data
通过?pandas.DataFrame.shift命令查看帮助文档
Signature: pandas.DataFrame.shift(self, periods=1, freq=None, axis=0)
Docstring:
Shift index by desired number of periods with an optional time freq
该函数主要的功能就是使数据框中的数据移动,若freq=None时,根据axis的设置,行索引数据保持不变,列索引数据可以在行上上下
Pandas是一个非常好用的工具,可以用来处理各种格式的数据,本文主要介绍Pandas中的四种选择数据的方法:
简单的筛选类型有四种,按照标签索引、元素位置以及综合筛选,具体如下:
#select by label : loc
#select by position : iloc
#mixed selection : ix
#使用判断
建立一个DataFrame表,程序如下:
<<<
import pandas as pd
import numpy as np