利用Python进行数据分析_Pandas_汇总和计算描述统计

申明:本系列文章是自己在学习《利用Python进行数据分析》这本书的过程中,为了方便后期自己巩固知识而整理。

In [1]: import numpy as np

In [2]: import pandas as pd

In [3]: from pandas import DataFrame,Series

In [4]: data = {'class':['语文','数学','英语'],'score':[120,130,140]}

In [5]: frame = DataFrame(data)

In [6]: frame
Out[6]:
  class  score
0    语文    120
1    数学    130
2    英语    140

我们来汇总一下成绩:

首先,我们通过字典标记的方式,可以将DataFrame的列转成一个Series:
In [18]: frame.score
Out[18]:
0    120
1    130
2    140
Name: score, dtype: int64

然后,我们再进行汇总统计:

In [20]: frame.sum()
Out[20]:
class    语文数学英语
score       390
dtype: object

当然,还有别的统计法则:

idxmin 最小值的索引值

idxmax 最大值的索引值

describe 一次性 多种维度统计

count 非NA值的数量

min 最小值

max 最大值

argmin 最小值的索引位置

argmax 最大值的索引位置

sum 总和

mean 平均数

median 算术中位数

mad 根据平均值计算平均绝对离差

var 样本值的方差

std 样本值的标准差

skew 样本值的偏度(三阶矩阵)

kurt 样本值的峰度(四阶矩阵)

cumsum 样本值的累积和

cummin、cummax 样本值的最大值、最小值

cumprod 样本值的累计积

diff 计算一阶差分

pct_change 计算百分数变化