何时使用归一化的最小最大缩放以及何时使用使用 z 分数进行数据预处理的标准化?
我知道归一化将特征范围降低到 0 到 1,z 分数降低到-3 到 3,但是不确定何时使用两种技术之一来检测数据中的异常值?
让我们简要商定条款:
z-score告诉我们样本的给定元素与平均值有多少标准偏差。
min-max scaling是重新缩放间隔 [0,1] 的测量范围的方法。
根据这些定义,如果您的数据遵循长尾分布,则 z-score 通常跨越比 [-3,3] 大得多的区间。另一方面,简单的归一化确实限制了可能结果的范围,但不会帮助您找到异常值,因为它只是限制了数据。
您需要的离群值检测是阈值,高于或低于该阈值,您认为数据点是离群值。许多编程语言提供Violin plots或Box plots,它们很好地显示了您的数据分布。图后面的方法实现了阈值的常见选择:
[箱形图] 的盒子和胡须绘制四分位数,盒子内部的带始终是第二个四分位数(中位数)。但是胡须的末端可以表示几个可能的替代值,其中包括:
所有数据的最小值和最大值 [...]
高于和低于数据平均值的一个标准差
第 9 个百分位数和第 91 个百分位数
第 2 百分位数和第 98 百分位数。
箱线图的晶须之外的所有数据点被绘制为点并且被认为是异常值。
本站系公益性非盈利分享网址,本文来自用户投稿,不代表边看边学立场,如若转载,请注明出处
评论列表(39条)