文章/答案/技术大牛

发布

社区首页 >问答首页 >如何通过连续特征对一组样本进行分类？

问如何通过连续特征对一组样本进行分类？
EN

Stack Overflow用户

提问于 2011-08-07 08:17:11

回答 1查看 171关注 0票数 2

例如，我在桌子下面，这是一个简单的分布20岁以上的人。

年龄再分配指标--人的统计

-2、

、C/17、C、B、B、C、B、C、B、B、C、C、B、B、C、B、B

然后，通过使用相同的数据集，我可以构建另一个“更好”的表。

年龄再分配指标--人的统计

实际上，通过使用相同的数据集，我可以创建更多包含不同年龄范围组合的表。

现在我想知道怎样才能找到最好的组合。我们可以通过以下三个原则来衡量组合是否好的可能的“善函数”：

不应该有太多的或太少的类，不应该有太多的类变化，much.

Distribution应该足够平滑，也就是说，每个类所涵盖的项的数量不应该有太多的变化。

由于这个问题只是一般的情况，足以描述一种具体的问题，所以应该已经有了一些复杂的解决办法。但我没能找到他们。有人能给我一些建议吗？

我已经经历了一些分类算法，如PCA、k-均值或“基于最大熵的算法”，但它们似乎过于笼统，无法通过遵循上述三项原则来解决这个具体问题。

algorithm

machine-learning

cluster-analysis

classification

回答 1

Stack Overflow用户

发布于 2011-10-29 00:10:22

我要做以下几点：

建立评价职能：

double goodness(double firstThreshold, double bucketWidth, int numBuckets)

它会根据你的原则返回一个好分数。然后，我会强暴一些参数的组合，并选择最好的好分数组合。如果我们为每个参数尝试4-10个值，那么蛮力就会起作用，并且可能会为袖口提供很好的整数。如果你想变得更复杂，或者让它跑得更快，那么你可以尝试其他的搜索方法，比如爬山、波束搜索或模拟退火，但我认为这可能对你的情况来说太过分了。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6971571

复制

相似问题

问如何通过连续特征对一组样本进行分类？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何通过连续特征对一组样本进行分类？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何通过连续特征对一组样本进行分类？
EN