有人知道python如何学习随机森林实现如何在拟合过程中处理连续变量吗?我很想知道它是否进行了任何类型的绑定(如果是的话,它是如何进行绑定的),还是连续变量只是作为一个范畴变量来处理呢?我希望这不是latter...thanks!而且,如果有人知道的话,我愿意使用一些R实现。
发布于 2016-10-19 10:54:48
要了解随机林如何处理连续数据,必须了解随机林是如何工作的。在随机森林算法的基础上,建立了一种树结构。sklearn中的默认方法是根据基尼系数(参见滑雪文献)分割一棵树。这种树算法被称为购物车树。您可以将criterion更改为entropy,以选择ID3和C4.5树。在不深入数学的情况下,树算法将寻求根据导致最低基尼系数的截止值来分割树。
随机森林算法将在你的数据上建立大量的深树,并对所有经过训练的树进行平均处理,给出最终的预测结果。
根据您在数据大小和并行化的必要性方面的需求,我可以强烈推荐H2O。它是一个开源的机器学习软件套件,带有Python和R中的API,它们的随机森林实现非常快,并导致模型具有更高的AUC (请参阅此页以获得不同ML库之间的良好比较)。
https://datascience.stackexchange.com/questions/14624
复制相似问题