我使用SMO,Logistic回归,贝叶斯网络和简单的CART算法进行分类。WEKA的结果:
Algorithm Sensitivity (%) Specificity (%) Overall accuracy (%)
Bayesian Network 57.49 76.09 65.24
Logistic Regression 64.73 69.86 66.87
SMO 54.32 79.20 64.69
Simple CART 71.88 61.51 67.56对于我的分类问题,SMO给出了最好的结果,因为它对79.20%的类进行了正确的分类,这对我来说很重要。我想通过堆叠来提高这一精确度。我试着把其中的一些结合起来。在大多数情况下,我不能提高精度,但叠加SMO与Logistic回归使精度略有提高。
我如何解释为什么用Logistic回归叠加SMO比其他方法更好呢?
是否有任何的泛化,如组合树分类器在堆叠方面取得了良好的效果?堆叠的时候我应该关心什么?
Bayesian Network Logistic Reg. SMO CART
Kappa statistic 0.3196 0.3367 0.3158 0.3335
Mean absolute error 0.3517 0.4164 0.3531 0.4107
Root mean squared error 0.5488 0.4548 0.5942 0.4547
Relative absolute error (%) 72.3389 85.65 72.6299 84.477
Root relative squared error (%) 111.3076 92.2452 120.5239 92.2318
Weighted Avg. of F-Measure 0.653 0.671 0.676 92.2318
ROC Area 0.725 0.727 0.668 0.721实例总数为25106。他们中的14641人是甲类,10465人属于b类。
=== Confusion Matrix of Simple CART ===
a b <-- classified as
10524 4117 | a = 0
4028 6437 | b = 1
=== Confusion Matrix of SMO ===
a b <-- classified as
7953 6688 | a = 0
2177 8288 | b = 1
=== Confusion Matrix of Logistic Regression ===
a b <-- classified as
9477 5164 | a = 0
3154 7311 | b = 1由于SMO在B类中是成功的,CART在a类中是成功的,所以我尝试将这两种算法集成起来。但我无法提高准确度。然后尝试将SMO与Logistic回归相结合,提高了精度。为什么用Logistic回归的SMO比用购物车进行SMO更好,有什么解释吗?
发布于 2015-07-09 17:47:34
要直接回答关于堆叠的问题:您应该关心最小化偏见和差异。这是显而易见的,但在实践中,这往往归结为简单的具有“多样化”的模型。(我很抱歉,链接就在付费墙后面,但还有其他一些类似的链接,你很可能会找到其他方法)。
你不会想要一群志同道合的模特--他们会犯同样的错误,互相加强。
在堆叠的情况下,发生了什么?您正在让概率分类器在实际特征输入上的输出成为新的特征。一组不同的分类器可以以任何方式给出关于边缘情况的信号是可取的。如果分类器1在A类、B类和C类中很糟糕,而在D类或某种边缘情况下非常出色,那么它仍然是对集合的一个很好的贡献。
这就是为什么神经网络在图像识别方面做得那么好的原因--深网实际上是递归的logistic回归叠加组合!现在人们并不总是使用sigmoid激活,并且有很多层架构,但这是相同的一般概念。
我想推荐的是,通过在训练中使用分类器的预测输出向量(即Diettrich的Kappa统计量)上的一些相似性度量,来最大限度地提高集合的多样性。这是另一个很好的参考。
希望这能帮上忙。
发布于 2015-07-07 06:50:32
通过MLWave阅读以下内容:http://mlwave.com/kaggle-ensembling-guide/
这是堆叠/组合的很好的起点。
https://datascience.stackexchange.com/questions/6349
复制相似问题