您好,1、winsorize是用相应分位数的值替代分位数之外的值,而不是删掉,这样可以最大限度的保存数据信息另外,这个跟数据多少没关系。主要是根据已有文献来的,如果别人用winsorize你也要用,否则你的结论和别人的没有可比性。不过就我看来,至少在金融领域,使用winsorize比较普遍,删除异常值的做法越来越少的被使用了。
2、异常值处理,原理大致是将异常值修建成与正常分布最大值or 最小值相同。
eg,如果你的log_size都在20左右,例如在15~20之间区间浮动,有些特别大或特别小的值出现,用winsorize就会把他们变成区间的最大值or最小值。这个“特别大”or“特别小”是你自己可以定义的,如果你认为比20高出10%算作异常值,那么22就会被修改成20,放在样本里。