跳至主要內容

概述

荒流2019年4月12日大约 3 分钟约 843 字

Pandas简介

import pandas as pd

建立在 NumPy 数组结构上的 Pandas,尤其是它的 SeriesDataFrame 对象,为数据科学家们处理那些消耗大量时间的“数据清理”(data munging)任务提供了捷径。

Pandas 有三个基本数据结构:Series, DataFrame, Index

Pandas 中字符串类型通常是用 object 类型存储的。

Series对象

Pandas 的 Series 对象有 valuesindex 两个属性。

Series 对象的特点:

创建 Series 对象的通用形式:pd.Series(data, index=index)

DataFrame对象

DaraFrame 对象有values, index, columns三个属性。

DataFrame 对象的特点:

创建 DataFrame 对象:

  1. 通过单个 Series 对象创建

    pd.DataFrame(population, columns=['population'])
  2. 通过字典列表创建(元素是字典的列表),此时由字典的键对应 DataFrame 的列标签

    >>> data = [{'a': i, 'b': 2 * i} for i in range(3)]
    >>> pd.DataFrame(data)
    	a	b
    0	0	0
    1	1	2
    2	2	4
  3. 通过 Series 对象字典创建

  4. 通过 NumPy 二维数组创建

  5. 通过 NumPy 结构化数组创建

Index对象

Index 对象的特点: