首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何通过连续特征对一组样本进行分类?

如何通过连续特征对一组样本进行分类?
EN

Stack Overflow用户
提问于 2011-08-07 08:17:11
回答 1查看 171关注 0票数 2

例如,我在桌子下面,这是一个简单的分布20岁以上的人。

年龄再分配指标--人的统计

-2、

  • 、C/17、C、B、B、C、B、C、B、B、C、C、B、B、C、B、B

然后,通过使用相同的数据集,我可以构建另一个“更好”的表。

年龄再分配指标--人的统计

-

实际上,通过使用相同的数据集,我可以创建更多包含不同年龄范围组合的表。

现在我想知道怎样才能找到最好的组合。我们可以通过以下三个原则来衡量组合是否好的可能的“善函数”:

不应该有太多的或太少的类,不应该有太多的类变化,much.

  • Distribution应该足够平滑,也就是说,每个类所涵盖的项的数量不应该有太多的变化。

由于这个问题只是一般的情况,足以描述一种具体的问题,所以应该已经有了一些复杂的解决办法。但我没能找到他们。有人能给我一些建议吗?

我已经经历了一些分类算法,如PCA、k-均值或“基于最大熵的算法”,但它们似乎过于笼统,无法通过遵循上述三项原则来解决这个具体问题。

EN

回答 1

Stack Overflow用户

发布于 2011-10-29 00:10:22

我要做以下几点:

建立评价职能:

代码语言:javascript
复制
double goodness(double firstThreshold, double bucketWidth, int numBuckets)

它会根据你的原则返回一个好分数。然后,我会强暴一些参数的组合,并选择最好的好分数组合。如果我们为每个参数尝试4-10个值,那么蛮力就会起作用,并且可能会为袖口提供很好的整数。如果你想变得更复杂,或者让它跑得更快,那么你可以尝试其他的搜索方法,比如爬山、波束搜索或模拟退火,但我认为这可能对你的情况来说太过分了。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6971571

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档