pandas妙招之 DataFrame基础运算以及空值填充

pandas妙招之  DataFrame基础运算以及空值填充

相关学习推荐:python教程

今天是pandas数据处理专题的第四篇文章,我们一起来聊聊DataFrame中的索引。

上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法,比如iloc_ . Z、lo = x ` p 3c以及逻辑索引等等。今天的文章我们来看看DataFrame的一些基本运算

数据对齐

我们可6 6 P J X以计算两个D. L + hataFrame的加J N 9和,pandas会自& 3 P Q V s S m V动将这两个DataFrame进行数据对齐,如果对不上的数据会被置为Nan(not a number)。

首先我们来创建两个DataFrame:

import numpy as npS w a & { Zimport pandas as pddf1 = pd.DataFrame(m F np.arange(9).reshape((3, 3))c $ + W 0 B, columns=list('abc'), index=['1', '2', '3'])df2 = pd.DataFrame(np.arange(12] x $ N).reshape((4, 3)), cc $ ` | # D ?olumns=list('abd'), index=['2', '3', '4', '5'])复制代码

得到的结果和我们设想的一致,其实只是通过numpy数组创建DataFrame,然后指定index和columns而已,这应该算是很基础的用法了。

pandas妙招之  DataFrame基础运算以及空值填充

然后我们将两个DataFram, k m 5 E D _ D ]e相加,会得到:

pandas妙招之  DataFrame基础运算以及空值填充

我们发现pandas将两个DataFrame加起来合并了之后,凡是没} T e有在两个DataF4 c x a k 0 Brame都出现的位置就g C }会被置为NX l jan。这其实是很有道理的,实际r = % ; , G上不只是加法,我们可以计算两D t + S R H个DataFrame的加减乘除的四则运算都是可以的。如果是计算两个DataFrame相除的话,那么除了对应不上的数据会被置为Nan之外,除零这个行为也会导致异常值的发生(可能% V X不一定是Nan,k s / Y 而是inf)。

fill_value

如果我们要对两个DataFrame进行运算,那么我们当然不会希望出现空值。这个时候就需要对空值进行填充了,我们直接使用运算符进行运算是没办法传递参数进行填充的,这个时候我们需要使用DataFrame当中为我们提供的算术方法

DataFrame当中常用的运算符有这么几种:

pandas妙招之  DataFrame基础运算以及空值填充

add、sub、p这些我们都很好理解,那么这里的radd、rsub方法又是什么意思呢,为什么前面要加上一个r呢?

看起来费解,但是说白了一文不值,radd是用来翻转参数的。举个例子,比如说我们希望得到DataFrame当中所有元素的I U t X i倒数,我们可以写成1 / df。由于1本身并不是一个DataFrame,所以我们不能用1来呼叫DataFrame当中的方法# O w t o V y b $,也就不能传递参数,为了解决这种情况,我们可以把l i n1 / df写成df.rp(1),这样我们就可以在其中传递参数了。

pandas妙招之  DataFrame基础运算以及空值填充

由于在算除法的过程当中发生了除零,所以我们t I - &得到了一个inf,它表示无穷大。

我们可以在add、p这些方法当中传入一个fill_value的参数,这个参数可以在计算之前对于一边出现缺失值的情况进行填充。也就是说对于对! 1 E T e { g _于只在一个DataFrame中缺失的位置会被替换成我们指定的值,如果] U c # * F j J q在两个g ) & lDataFrame都缺失,那么依然还] $ m $ 2 :会是Nan

pandas妙招之  DataFrame基础运算以及空值填充

我们对比下结果就@ j Y c能发现了,相加之后的(1, d), (4, c)以及(5, c)的位置都是Nan,因为df1和df2两个DataFrame当中这些位置都是空值,所以没有被填充。

fill_value这个参数在很多api当中都有出现,比如reindex等,用法都是一样的,我们在查阅api文档的时候可以注意一下。

j Y o么对于这种填充了之后还出现的空值我们应该怎么办呢?难道只能手动找到这些位置进行填充吗?当然是不现实的,pandas当中还为我们提供了专门解决空值的api。

空值api

在填充空值之前,我们首先要做的是发现, r / ;空值。针对这个问题,我们有isna这个api,它会返回一个bool型的DataFD c 8 Vrame,DatD ] G #aFrame当中的每一个位置表示了原DataFrameB + } J H ? S ? `对应的位置是否是空值。

pandas妙招之  DataFrame基础运算以及空值填充

dropna

当然只是发现是否是空值肯定是不够的,我们有时候会希望不& & s }要空值的出现,这个时候我们可以选择drop掉C f j c @ +空值。针对这种情况,我们可以使用DataFrame当中的dropna方法。

pandas妙招之  DataFrame基础运算以及空值填充

我们发现使用了dropna之后,出现了空值的行都被抛弃了。只保留了Z U x N ` G 7没有空值的行,有& v # * y /时候我们希望抛弃是的列而d ? ;不是行,这个时候我们可k V J v Q - i以通过传入axis参数进行控制。

pandas妙招之  DataFrame基础运算以及空值填充

这样我I p 1 C p 7 & j O们得到的就是不含空值的列,除u _ [ C 9 T Y了可以控制行列之外,我们还可以控制执行drop的严格程度。我们可以通过how这个参数来判断,how支持两种值传入,一种K 9 i r 3是'all',一种是'any'。all表示只Z r N V e 0 ; f有在某一行或者是某一{ - p z 3 ;列全为空值的时候才会抛弃,any与之对应就是只要出现了空值就会抛弃。默认不填的话认为是any,一般情况下我们也用不到这个参数,大概有个n } { ` X A N $印象就可以了。

fillna

pano Y 4das除了可以drop含有空值的数据X 5 C w - q _ e X之外,当然也可以用来填充空值,事实上这也是最常用的方法。

我们可以很简单地传入一个具体的值用来填充:

pandas妙招之  DataFrame基础运算以及空值填充

fillna会返回一个新的DataFrame,其中所有的Nan值会被8 a [ 7 y替换成我们指定的值。如果我们不希望它返回一个新的Dh : Q 4 a A ! dataFra) H V & = - * &me,而是直N - W P接在? + B N R原数据进行修改的话,我们可以使用inplace参数,表明这是一个inplace的操作,那么pandas将m 3 S会在原DataFrame上进行修改。6 k ~ A q

df3.fillna(3, inplace=True)复制代码

除了填充具体的值以外,我们也可以和一些计算结合起来算出来应该填充的M J C c @ H D。比如说我们可以计算出某一列的均值、最大值、最小值等各种计算来填充。fillna这个函数不仅可以使用在DataR } % a = ` l F aFrame上,也可以使用在Serih w ges上,所以我们可以针对DataFrame中的某一列或者是某些列进行填充:

pandas妙招之  DataFrame基础运算以及空值填充

除了可以% c s a 1 u $ w U计算| D J 2 , B ` G m出均值、最大最小值等各种值来进行填充之外,还可以指定使用缺失值的前一行或者是后一行的值来填充。实现这个功能需要用到method这个参数,它有两个接收值,ffill表示t d L G s ; F K p用前一行的值来进行填充,bfill表示使用后一行的值填充。_ t Q {

pandas妙招之  DataFrame基础运算以及空值填充

我们可以看到,当我们使用ffill填充的时候,对于第一行的数据来说由# { e Q V 6 2 q于它没有前一行了,所` D Y以它的Nan会被保留。同样当我们使用bfill的R d ( b x ! I u i时候,最后一行也无法填充。

总结

今天的文章当中我们主要介绍了Da? b 9 Y T ktaFrame的一些基本运算,比如最基础的四则运算。在进行四则运算的时候由于DataFrame之间可能存在行列索引不能对齐的情况,这样计算得到的结果会出现空值,所以我们需要对空值进行处理。我们可以在G ? $ , x l u q进行计算的时候通过传入fill_value进行填充,也可以在计算之后对结果进行fillna填充。

在实际的运用当中,我们一般很少会直接对两S . W个DataFrame进行加减运算,但是DataFraY z &me中出现空置是家常便饭的事情。因此对于空值的填充和处理非常重要,可以说是学习中的重点,大家千万注意。

想了解更多编程学习,敬请关注php培训栏目!

以上就是pandas妙招之 DataFrame基础运算以及空值填充的详细内容。

pandas妙招之  DataFrame基础运算以及空值填充
数据对齐fill_value空值apidropnafillna总结