假设在机器学习问题中,dataset中有几个分类特征。
处理分类特性的一种常见方法是一种热编码。然而,在此示例中,作者将OrdinalEncoder应用于分类特征,然后再进行模型拟合和特征导入。
我想问的是,一般而言,sklearn算法是否将OrdinalEncoded特性视为连续的或绝对的特性。
如果滑雪板模型将OrdinalEncoded特性视为连续特性,那么它是否是处理分类特性的正确方法?
发布于 2022-09-06 14:42:42
最后,OrdinalEncoded特性只是数字(浮点数),因此正如CutePoison所说,它们被视为连续的方式。
OrdinalEncoded特性是正确的工作方式吗?视情况而定,你应该问问自己,数据的顺序很重要。.
如果这很重要,您可以使用OrdinalEncoder。典型的例子是电影的评级:["disgusting", "bad", "normal", "good", "super"]。正如你所看到的,坏是“小”比“正常”,所以有秩序的重要性。
然而,在其他分类数据,如专业:["police", "teacher", "lawyer", "engineer"]没有秩序的重要性。例如,你不能说警察比律师“小”。然后,您必须使用OneHotEncoder。
因此,作为结论,这取决于你的分类数据。
发布于 2022-09-06 10:10:37
当问题是你有一个分类特性时,将一个分类特性转换成另一个分类功能是没有意义的。
如果读取对函数的输入,则有:
dtype:默认np.float64 所需的d型输出。
即输出是标准的浮点数,
这是正确的方式吗?正如所有机器学习一样,它取决于您的应用程序。
https://stackoverflow.com/questions/73620210
复制相似问题