首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >连续特征离散化的理由是什么,应该在什么时候进行?

连续特征离散化的理由是什么,应该在什么时候进行?
EN

Data Science用户
提问于 2017-06-17 04:23:17
回答 2查看 6.3K关注 0票数 7

连续特征离散化往往会导致信息的丢失。然而,卡格尔泰坦尼克号的大多数顶级解决方案都是基于离散化(年龄、票价)。

什么时候应该离散连续特征?是否有任何关于准确性的标准和利弊。

EN

回答 2

Data Science用户

发布于 2017-10-17 03:51:36

离散连续特征的一个原因是为了提高信噪比.将模型拟合到垃圾箱可以减少数据中的小波动对模型的影响,通常小的波动只是噪声。每个垃圾箱“平滑”了数据部分的波动/噪音。

票数 6
EN

Data Science用户

发布于 2017-06-17 15:46:50

我可以想到三个原因,为什么离散化可能有助于解决一些问题。

这对你的问题很有意义,

连续变量,如年龄,更好地理解时,离散成有意义的小组:婴儿,青少年,年轻人,成年人,老年人,.这在市场营销领域是很常见的,因为在一个人的利益上,很少的几年并没有什么不同。

给出另一个例子,在处理带有GPS位置的数据集时,将其离散到国家/州位置可能更有用。

Interpretability

一个连续的特性可能不与你的目标线性相关,但有一个更复杂的非线性相关。在这种情况下,获得对这种特性的可解释的解释并不容易。不管你把它离散成一组或一组水平,你可能会发现其中一些与你的目标相关(或反关联),给了你一些可解释性。

模型的局限性

一些机器学习模型和特征选择方法不能处理连续的特征,例如基于熵的方法,或者决策树或神经网络的一些变体。你要么将你的特性谨慎化,要么忘记使用这样的模型。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/19782

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档