概述

荒流2019/4/12大约 3 分钟约 843 字

Pandas简介

import pandas as pd

建立在 NumPy 数组结构上的 Pandas，尤其是它的 Series 和 DataFrame 对象，为数据科学家们处理那些消耗大量时间的“数据清理”（data munging）任务提供了捷径。

Pandas 有三个基本数据结构：Series, DataFrame, Index。

Pandas 中字符串类型通常是用 object 类型存储的。

Pandas 的 Series 对象有 values 和 index 两个属性。

Series 对象的特点：

Series 对象是一个带索引数据构成的一维数组。可以用一个数组创建 Series 对象：

>>> data = pd.Series([0.25, 0.5, 0.75, 1.0])
>>> data
0	0.25
1	0.50
2	0.75
3	1.00
dtype: float64

Series 是通用的 NumPy 数组。显式索引的定义让 Series 对象拥有了更强的能力，例如索引不再仅仅是整数，而可以是任意想要的类型：

>>> data = pd.Series([0.25, 0.5, 0.75, 1.0],
                     index=['a', 'b', 'c', 'd'])
>>> data
a	0.25
b	0.50
c	0.75
d	1.00
dtype: float64

Series 是特殊的字典。字典是一种将任意键映射到一组任意值的数据结构，而 Series 对象其实是一种将类型键映射到一组类型值的数据结构。用字典创建 Series 对象时，其索引默认按照顺序排列。

创建 Series 对象的通用形式：pd.Series(data, index=index)

可以通过显式地指定索引筛选需要的结果：

>>> pd.Series({2: 'a', 1: 'b', 3: 'c'}, index=[3, 2])
3	c
2	a
dtype: object

DaraFrame 对象有values, index, columns三个属性。

DataFrame 对象的特点：

如果将 Series 类比为带灵活索引的一维数组，那么 DataFrame 就可以看作是一种既有灵活的行索引，又有灵活列名的二维数组。也可以将 DataFrame 看成是含共同索引的若干 Series 对象。
DataFrame 是特殊的字典。字典是一个键映射一个值，而 DataFrame 是一列映射一个 Series 的数据。

创建 DataFrame 对象：

通过单个 Series 对象创建

pd.DataFrame(population, columns=['population'])

通过字典列表创建（元素是字典的列表），此时由字典的键对应 DataFrame 的列标签

>>> data = [{'a': i, 'b': 2 * i} for i in range(3)]
>>> pd.DataFrame(data)
	a	b
0	0	0
1	1	2
2	2	4

Index 对象的特点：

2024/4/13 02:18

查看所有更新日志