文章/答案/技术大牛

发布

社区首页 >问答首页 >作为一种集合方法，堆叠时我应该关心什么？

问作为一种集合方法，堆叠时我应该关心什么？
EN

Data Science用户

提问于 2015-07-06 09:40:59

回答 2查看 396关注 0票数 2

我使用SMO，Logistic回归，贝叶斯网络和简单的CART算法进行分类。WEKA的结果：

Algorithm               Sensitivity (%)       Specificity (%)         Overall accuracy (%)
Bayesian Network            57.49                 76.09                    65.24
Logistic Regression         64.73                 69.86                    66.87
SMO                         54.32                 79.20                    64.69
Simple CART                 71.88                 61.51                    67.56

对于我的分类问题，SMO给出了最好的结果，因为它对79.20%的类进行了正确的分类，这对我来说很重要。我想通过堆叠来提高这一精确度。我试着把其中的一些结合起来。在大多数情况下，我不能提高精度，但叠加SMO与Logistic回归使精度略有提高。

我如何解释为什么用Logistic回归叠加SMO比其他方法更好呢？

是否有任何的泛化，如组合树分类器在堆叠方面取得了良好的效果？堆叠的时候我应该关心什么？

编辑：

                                Bayesian Network    Logistic Reg.   SMO         CART 
Kappa statistic                   0.3196             0.3367         0.3158      0.3335 
Mean absolute error               0.3517             0.4164         0.3531      0.4107 
Root mean squared error           0.5488             0.4548         0.5942      0.4547 
Relative absolute error (%)      72.3389              85.65        72.6299      84.477 
Root relative squared error (%) 111.3076            92.2452       120.5239     92.2318 
Weighted Avg. of F-Measure        0.653               0.671          0.676     92.2318 
ROC Area                          0.725               0.727          0.668       0.721

实例总数为25106。他们中的14641人是甲类，10465人属于b类。

=== Confusion Matrix of Simple CART ===
     a     b   <-- classified as
 10524  4117 |     a = 0
  4028  6437 |     b = 1

=== Confusion Matrix of SMO ===

    a    b   <-- classified as
 7953 6688 |    a = 0
 2177 8288 |    b = 1

=== Confusion Matrix of Logistic Regression ===

    a    b   <-- classified as
 9477 5164 |    a = 0
 3154 7311 |    b = 1

由于SMO在B类中是成功的，CART在a类中是成功的，所以我尝试将这两种算法集成起来。但我无法提高准确度。然后尝试将SMO与Logistic回归相结合，提高了精度。为什么用Logistic回归的SMO比用购物车进行SMO更好，有什么解释吗？

machine-learning

data-mining

classification

回答 2

Data Science用户

回答已采纳

发布于 2015-07-09 17:47:34

要直接回答关于堆叠的问题:您应该关心最小化偏见和差异。这是显而易见的，但在实践中，这往往归结为简单的具有“多样化”的模型。(我很抱歉，链接就在付费墙后面，但还有其他一些类似的链接，你很可能会找到其他方法)。

你不会想要一群志同道合的模特--他们会犯同样的错误，互相加强。

在堆叠的情况下，发生了什么？您正在让概率分类器在实际特征输入上的输出成为新的特征。一组不同的分类器可以以任何方式给出关于边缘情况的信号是可取的。如果分类器1在A类、B类和C类中很糟糕，而在D类或某种边缘情况下非常出色，那么它仍然是对集合的一个很好的贡献。

这就是为什么神经网络在图像识别方面做得那么好的原因--深网实际上是递归的logistic回归叠加组合！现在人们并不总是使用sigmoid激活，并且有很多层架构，但这是相同的一般概念。

我想推荐的是，通过在训练中使用分类器的预测输出向量(即Diettrich的Kappa统计量)上的一些相似性度量，来最大限度地提高集合的多样性。这是另一个很好的参考。

希望这能帮上忙。

票数 1

Data Science用户

发布于 2015-07-07 06:50:32

通过MLWave阅读以下内容：http://mlwave.com/kaggle-ensembling-guide/

这是堆叠/组合的很好的起点。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/6349

复制

相似问题

问作为一种集合方法，堆叠时我应该关心什么？
EN

编辑：

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问作为一种集合方法，堆叠时我应该关心什么？EN

编辑：

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问作为一种集合方法，堆叠时我应该关心什么？
EN