文章/答案/技术大牛

发布

社区首页 >问答首页 >连续特征离散化的理由是什么，应该在什么时候进行？

问连续特征离散化的理由是什么，应该在什么时候进行？
EN

Data Science用户

提问于 2017-06-17 04:23:17

回答 2查看 6.3K关注 0票数 7

连续特征离散化往往会导致信息的丢失。然而，卡格尔泰坦尼克号的大多数顶级解决方案都是基于离散化(年龄、票价)。

什么时候应该离散连续特征？是否有任何关于准确性的标准和利弊。

machine-learning

statistics

feature-selection

algorithms

feature-extraction

回答 2

Data Science用户

发布于 2017-10-17 03:51:36

离散连续特征的一个原因是为了提高信噪比.将模型拟合到垃圾箱可以减少数据中的小波动对模型的影响，通常小的波动只是噪声。每个垃圾箱“平滑”了数据部分的波动/噪音。

票数 6

Data Science用户

发布于 2017-06-17 15:46:50

我可以想到三个原因，为什么离散化可能有助于解决一些问题。

这对你的问题很有意义，

连续变量，如年龄，更好地理解时，离散成有意义的小组:婴儿，青少年，年轻人，成年人，老年人，.这在市场营销领域是很常见的，因为在一个人的利益上，很少的几年并没有什么不同。

给出另一个例子，在处理带有GPS位置的数据集时，将其离散到国家/州位置可能更有用。

Interpretability

一个连续的特性可能不与你的目标线性相关，但有一个更复杂的非线性相关。在这种情况下，获得对这种特性的可解释的解释并不容易。不管你把它离散成一组或一组水平，你可能会发现其中一些与你的目标相关(或反关联)，给了你一些可解释性。

模型的局限性

一些机器学习模型和特征选择方法不能处理连续的特征，例如基于熵的方法，或者决策树或神经网络的一些变体。你要么将你的特性谨慎化，要么忘记使用这样的模型。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/19782

复制

相似问题

问连续特征离散化的理由是什么，应该在什么时候进行？
EN

回答 2

Data Science用户

Data Science用户

这对你的问题很有意义，

Interpretability

模型的局限性

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问连续特征离散化的理由是什么，应该在什么时候进行？EN

回答 2

Data Science用户

Data Science用户

这对你的问题很有意义，

Interpretability

模型的局限性

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问连续特征离散化的理由是什么，应该在什么时候进行？
EN