Pandas简介

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
pandas主要使用的是两个数据结构Series和Dataframe,我们先导入它们以及相关模块:

1
2
3
# -*- coding:utf-8 -*-
import numpy as np
from pandas import Series, DataFrame

Pandas数据结构:Series

一般来说,Series可以被认为是一维数组,Series与一维数组最主要的区别是Series具有索引(index),可以与另一个程序中常见的数据结构联系起来。

Series的创建

创建Series的基本格式是s = Series(data, index=index, name=name),下面给出几个创建Series的例子。

1
2
3
4
5
6
a = np.random.randn(5)
print"a is an array:"
print (a)
s = Series(a)
print"s is a Series:"
print (s)

1
2
3
4
5
6
7
8
9
a is an array:
[-1.24962807 -0.85316907 0.13032511 -0.19088881 0.40475505]
s is a Series:
0 -1.249628
1 -0.853169
2 0.130325
3 -0.190889
4 0.404755
dtype: float64

在创建Series时可以添加index,而且可以使用Series.index查看具体的index,但是需要注意的一点是,当从数组创建Series时,若指定index,那么index长度要和data的长度一致:

1
2
3
s = Series(np.random.randn(5), index = ['a' , 'b' , 'c' , 'd' , 'e'])
print(s)
print(s.index)

1
2
3
4
5
6
7
a   -0.566972
b -0.426072
c 0.787193
d 0.526550
e -1.271557
dtype: float64
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

Series还可以从字典(dict)创建:

1
2
3
4
5
6
d = {'a' : 0. , 'b' : 1. , 'c' : 2}
print("d is a dict:")
print(d)
s = Series(d)
print( "s is a Series:")
print(s)

1
2
3
4
5
6
7
d is a dict:
{'a': 0.0, 'b': 1.0, 'c': 2}
s is a Series:
a 0.0
b 1.0
c 2.0
dtype: float64

#