缺失值处理

荒流2019/4/15大约 4 分钟约 1109 字

缺失值处理的方法

此处涉及的缺失值主要有三种形式：null, NaN, NA(not available)。

处理缺失值的方法一般可分为两种：掩码法、标签值法。

使用单独的掩码数组会额外出现一个布尔类型数组，从而增加存储与计算的负担；而标签值方法缩小了可以被表示为有效值的范围，可能需要在 CPU 或 GPU 算术逻辑单元中增加额外的（往往也不是最优的）计算逻辑。通常使用的 NaN 也不能表示所有数据类型。

掩码法是通过一个覆盖全局的掩码表示缺失值。掩码可能是一个与原数组维度相同的完整布尔类型数组，也可能是用一个比特（0 或 1）表示有缺失值的局部状态。
标签值法是用一个标签值表示缺失值。标签值可能是具体的数据（例如用-9999 表示缺失的整数），也可能是些极少出现的形式。标签值还可能是更全局的值，比如用 NaN（不是一个数）表示缺失的浮点数，它是 IEEE 浮点数规范中指定的特殊字符。

Pandas 最终选用标签值法表示缺失值，包括两种 Python 原有的缺失值：浮点数据类型的 NaN 值，以及 Python 的 None 对象。

None：Python 对象类型的缺失值
- None 是一个 Python 单体对象，经常在代码中表示缺失值。
- 由于是对象，所以它不能作为任何 NumPy 或 Pandas 数组类型的缺失值，只能用于object数组类型（即由 Python 对象构成的数组）。
- 这种类型的数组任何操作最终都会在 Python 层面完成，所以要比其他原生类型数组消耗更多资源。
NaN：数值类型的缺失值
- Not a Number，是一种按照 IEEE 浮点数标准设计、在任何系统中都兼容的特殊浮点数。
- 可以把 NaN 看作是一个数据类病毒——它会将与它接触过的数据同化，即无论和 NaN 进行何种操作，最终结果都是 NaN。
Pandas 中 NaN 与 None 的差异：Pandas 把 NaN 和 None 看成是可以等价交换的，在适当的时候会将两者进行替换：
Pandas 中不同类型缺失值的转换规则
再次提醒：Pandas 中字符串类型通常是用 object 类型存储的。