首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >sklearn算法是假设序数整数值为连续特征还是范畴特征?

sklearn算法是假设序数整数值为连续特征还是范畴特征?
EN

Stack Overflow用户
提问于 2022-09-06 10:06:46
回答 2查看 34关注 0票数 0

假设在机器学习问题中,dataset中有几个分类特征。

处理分类特性的一种常见方法是一种热编码。然而,在此示例中,作者将OrdinalEncoder应用于分类特征,然后再进行模型拟合和特征导入。

我想问的是,一般而言,sklearn算法是否将OrdinalEncoded特性视为连续的或绝对的特性。

如果滑雪板模型将OrdinalEncoded特性视为连续特性,那么它是否是处理分类特性的正确方法?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-09-06 14:42:42

最后,OrdinalEncoded特性只是数字(浮点数),因此正如CutePoison所说,它们被视为连续的方式。

OrdinalEncoded特性是正确的工作方式吗?视情况而定,你应该问问自己,数据的顺序很重要。.

如果这很重要,您可以使用OrdinalEncoder。典型的例子是电影的评级:["disgusting", "bad", "normal", "good", "super"]。正如你所看到的,坏是“小”比“正常”,所以有秩序的重要性。

然而,在其他分类数据,如专业:["police", "teacher", "lawyer", "engineer"]没有秩序的重要性。例如,你不能说警察比律师“小”。然后,您必须使用OneHotEncoder

因此,作为结论,这取决于你的分类数据。

票数 1
EN

Stack Overflow用户

发布于 2022-09-06 10:10:37

当问题是你有一个分类特性时,将一个分类特性转换成另一个分类功能是没有意义的。

如果读取对函数的输入,则有:

dtype:默认np.float64 所需的d型输出。

即输出是标准的浮点数,

这是正确的方式吗?正如所有机器学习一样,它取决于您的应用程序。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73620210

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档