pandas库的常用操作,参考书籍《Pandas Cookbook》,内容干货,推荐下载!movie get_dtype_counts# output the number of columns with each specific data type:
movie. select_dtypes(include['int ]).head(# select only integer columns
movie. filter(1ike=' facebook').head()#1ike参数表示包含此
pandas可以对不同索引的对象进行算术运算,如果存在不同的索引对,结果的索引就是该索引对的并集。
一、算术运算
a、series的加法运算
s1 = Series([1,2,3],index=["a","b","c"])
s2 = Series([4,5,6],index=["a","c","e"])
print(s1+s2)
'''
a 5.0
b NaN
c 8.0
e NaN
'''
sereis相加会自动进行数据对齐操作,在不重叠的索引处会
有的时候我们可以要根据索引的大小或者值的大小对Series和DataFrame进行排名和排序。
一、排序
pandas提供了sort_index方法可以根据行或列的索引按照字典的顺序进行排序
a、Series排序
1、按索引进行排序
#定义一个Series
s = Series([1,2,3],index=[a,c,b])
#对Series的索引进行排序,默认是升序
print(s.sort_index())
'''
a 1
b 3
c 2
'''
1. Series
Series 是一个类数组的数据结构,同时带有标签(lable)或者说索引(index)。
1.1 下边生成一个最简单的Series对象,因为没有给Series指定索引,所以此时会使用默认索引(从0到N-1)。
# 引入Series和DataFrame
In [16]: from pandas import Series,DataFrame
In [17]: import pandas as pd
In [18]: ser1 = Series([1,2,3,4])
In [
约定:
import pandas as pd
import numpy as np
ReIndex重新索引
reindex()是pandas对象的一个重要方法,其作用是创建一个新索引的新对象。
一、对Series对象重新索引
se1=pd.Series([1,7,3,9],index=['d','c','a','f'])
se1
代码结果:
d 1
c 7
a 3
f 9
dtype: int64
调用reindex将会重新排序,缺失值则用NaN填补。