winsorize处理是用相应分位数的值替代分位数之外的值,而不是删掉,这样可以最大限度的保存数据信息另外,这个跟数据多少没关系。
主要是根据已有文献来的,如果别人用winsorize你也要用,否则你的结论和别人的没有可比性。至少在金融领域,使用winsorize比较普遍,删除异常值的做法越来越少的被使用了。
扩展资料
Winsorize变换其实挺简单的,对于给定分位数界限(比如5%),对于超出上下界的部分用分位数代替,这样可以减少极端值对于分布的影响。算法挺简单的,用Excel都能完成。
上下1%极端值处理,如果一个样本某变量的值大于该变量的99分位数,则该样本的值被强制指定为99分位数的值。
类似的,如果一个样本某变量的值小于该变量的1分位数,则该样本该变量的值被强制指定为1分位数。