连续特征离散化往往会导致信息的丢失。然而,卡格尔泰坦尼克号的大多数顶级解决方案都是基于离散化(年龄、票价)。
什么时候应该离散连续特征?是否有任何关于准确性的标准和利弊。
发布于 2017-10-17 03:51:36
离散连续特征的一个原因是为了提高信噪比.将模型拟合到垃圾箱可以减少数据中的小波动对模型的影响,通常小的波动只是噪声。每个垃圾箱“平滑”了数据部分的波动/噪音。
发布于 2017-06-17 15:46:50
我可以想到三个原因,为什么离散化可能有助于解决一些问题。
连续变量,如年龄,更好地理解时,离散成有意义的小组:婴儿,青少年,年轻人,成年人,老年人,.这在市场营销领域是很常见的,因为在一个人的利益上,很少的几年并没有什么不同。
给出另一个例子,在处理带有GPS位置的数据集时,将其离散到国家/州位置可能更有用。
一个连续的特性可能不与你的目标线性相关,但有一个更复杂的非线性相关。在这种情况下,获得对这种特性的可解释的解释并不容易。不管你把它离散成一组或一组水平,你可能会发现其中一些与你的目标相关(或反关联),给了你一些可解释性。
一些机器学习模型和特征选择方法不能处理连续的特征,例如基于熵的方法,或者决策树或神经网络的一些变体。你要么将你的特性谨慎化,要么忘记使用这样的模型。
https://datascience.stackexchange.com/questions/19782
复制相似问题