首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用mlr包构建XML文件?

如何使用mlr包构建XML文件?
EN

Stack Overflow用户
提问于 2020-05-12 09:06:04
回答 1查看 110关注 0票数 0

我希望将mlr-package构建的逻辑模型直接转换为使用包pmml的XML文件。问题是,由mlr包装器构建的model.learner不包括列表中的模型链接,就像在普通stats::glm函数中一样。下面是一个例子:

代码语言:javascript
复制
library(dplyr)
library(titanic)
library(pmml)
library(ParamHelpers)
library(mlr)

Titanic_data = select(titanic_train, Survived, Pclass, Sex, Age)
Titanic_data$Survived = as.factor(Titanic_data$Survived)
Titanic_data$Sex = as.factor(Titanic_data$Sex)
Titanic_data$Pclass = as.factor(Titanic_data$Pclass)
Titanic_data = na.omit(Titanic_data)

lrn <- makeLearner("classif.logreg", predict.type = "prob")
task = makeClassifTask(data = Titanic_data, target = "Survived", positive = "1")
model = train(lrn, task)

model_glm = glm(Survived ~ ., data = Titanic_data, family = "binomial")

str(model$learner.model)   # list of 29
str(model_glm)             # list of 30

正如您所看到的,这两个模型的结构是一个不同元素的列表,它们都是相同的,除了包装器中缺少模型这一事实之外。因此,我使用pmml获得一条错误消息:

代码语言:javascript
复制
pmml(model_glm)
# Error in pmml.glm(model$learner.model) : object 'model.link' not found

由stats::glm构建的系统正在运行:

代码语言:javascript
复制
pmml(model)

<PMML version="4.4" xmlns="http://www.dmg.org/PMML-4_4" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.dmg.org/PMML-4_4 http://www.dmg.org/pmml/v4-4/pmml-4-4.xsd">
 <Header copyright="Copyright (c) 2020 TBeige" description="Generalized Linear Regression Model">
  <Extension name="user" value="TBeige" extender="SoftwareAG PMML Generator"/>
  <Application name="SoftwareAG PMML Generator" version="2.3.1"/>
  <Timestamp>2020-05-12 09:50:15</Timestamp>
 </Header>
 <DataDictionary numberOfFields="4">
  <DataField name="Survived" optype="categorical" dataType="string">
   <Value value="0"/>
   <Value value="1"/>
  </DataField>
  <DataField name="Pclass" optype="categorical" dataType="string">
   <Value value="1"/>
   <Value value="2"/>
   <Value value="3"/>
  </DataField>
  <DataField name="Sex" optype="categorical" dataType="string">
   <Value value="female"/>
   <Value value="male"/>
  </DataField>
  <DataField name="Age" optype="continuous" dataType="double"/>
 </DataDictionary>
 <GeneralRegressionModel modelName="General_Regression_Model" modelType="generalizedLinear" functionName="classification" algorithmName="glm" distribution="binomial" linkFunction="logit">
  <MiningSchema>
   <MiningField name="Survived" usageType="predicted" invalidValueTreatment="returnInvalid"/>
   <MiningField name="Pclass" usageType="active" invalidValueTreatment="returnInvalid"/>
   <MiningField name="Sex" usageType="active" invalidValueTreatment="returnInvalid"/>
   <MiningField name="Age" usageType="active" invalidValueTreatment="returnInvalid"/>
  </MiningSchema>
  <Output>
   <OutputField name="Probability_1" targetField="Survived" feature="probability" value="1" optype="continuous" dataType="double"/>
   <OutputField name="Predicted_Survived" feature="predictedValue" optype="categorical" dataType="string"/>
  </Output>
  <ParameterList>
   <Parameter name="p0" label="(Intercept)"/>
   <Parameter name="p1" label="Pclass2"/>
   <Parameter name="p2" label="Pclass3"/>
   <Parameter name="p3" label="Sexmale"/>
   <Parameter name="p4" label="Age"/>
  </ParameterList>
  <FactorList>
   <Predictor name="Pclass"/>
   <Predictor name="Sex"/>
  </FactorList>
  <CovariateList>
   <Predictor name="Age"/>
  </CovariateList>
  <PPMatrix>
   <PPCell value="2" predictorName="Pclass" parameterName="p1"/>
   <PPCell value="3" predictorName="Pclass" parameterName="p2"/>
   <PPCell value="male" predictorName="Sex" parameterName="p3"/>
   <PPCell value="1" predictorName="Age" parameterName="p4"/>
  </PPMatrix>
  <ParamMatrix>
   <PCell targetCategory="1" parameterName="p0" df="1" beta="3.77701265255885"/>
   <PCell targetCategory="1" parameterName="p1" df="1" beta="-1.30979926778885"/>
   <PCell targetCategory="1" parameterName="p2" df="1" beta="-2.58062531749203"/>
   <PCell targetCategory="1" parameterName="p3" df="1" beta="-2.52278091988034"/>
   <PCell targetCategory="1" parameterName="p4" df="1" beta="-0.0369852655754339"/>
  </ParamMatrix>
 </GeneralRegressionModel>
</PMML>

知道如何使用mlr并使用pmml?创建xml查找吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-12 09:33:09

问题似乎在pmml内部。

来自pmml::pmml.glm

代码语言:javascript
复制
    if (model$call[[1]] == "glm") {                                                                                 
        model.type <- model$family$family                                                                           
        model.link <- model$family$link                                                                             
    }                                                                                                               
    else {                                                                                                          
        model.type <- "unknown"                                                                                     
    }

在mlr模型中

代码语言:javascript
复制
model$learner.model$call[[1]]
# stats::glm

所以你可以直接黑进去

代码语言:javascript
复制
model$learner.model$call[[1]] = "glm"

然后

代码语言:javascript
复制
pmml(model$learner.model)

很管用。

老实说,这似乎是pmml包中奇怪的代码。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61747812

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档