,原创python使用小记2-异常数据的处理

注:文件中的异常包括描述性数据(特征)、缺失值(NAN)、

在这里的解决方法是借用pandas库

interpolate()使用插值来估计NaN 如果index是数字,可以设置参数method='value' ,如果是时间,可以设置method='time'

get_dummies对离散型特征进行one-hot编码

举例说明:

插值 是取前后两值的平均值作为该空位(NAN)的值

离散值特征的编码 假如某一列的特征名称是国家(有两个取值中国和美国 ),那么我们在用one-hot编码时,会从这一列数据演变出两列数据,一列为中国,另一列为美国,然后用0-1编码表示某一行数据属于中国还是美国。