例如,我在桌子下面,这是一个简单的分布20岁以上的人。
年龄再分配指标--人的统计
-2、
然后,通过使用相同的数据集,我可以构建另一个“更好”的表。
年龄再分配指标--人的统计
-
实际上,通过使用相同的数据集,我可以创建更多包含不同年龄范围组合的表。
现在我想知道怎样才能找到最好的组合。我们可以通过以下三个原则来衡量组合是否好的可能的“善函数”:
不应该有太多的或太少的类,不应该有太多的类变化,much.
由于这个问题只是一般的情况,足以描述一种具体的问题,所以应该已经有了一些复杂的解决办法。但我没能找到他们。有人能给我一些建议吗?
我已经经历了一些分类算法,如PCA、k-均值或“基于最大熵的算法”,但它们似乎过于笼统,无法通过遵循上述三项原则来解决这个具体问题。
发布于 2011-10-29 00:10:22
我要做以下几点:
建立评价职能:
double goodness(double firstThreshold, double bucketWidth, int numBuckets)它会根据你的原则返回一个好分数。然后,我会强暴一些参数的组合,并选择最好的好分数组合。如果我们为每个参数尝试4-10个值,那么蛮力就会起作用,并且可能会为袖口提供很好的整数。如果你想变得更复杂,或者让它跑得更快,那么你可以尝试其他的搜索方法,比如爬山、波束搜索或模拟退火,但我认为这可能对你的情况来说太过分了。
https://stackoverflow.com/questions/6971571
复制相似问题