ITPub博客

首页 > 大数据 > 数据挖掘 > R语言多元Logistic逻辑回归 应用案例

R语言多元Logistic逻辑回归 应用案例

原创 数据挖掘 作者:tecdat 时间:2020-11-04 17:29:37 0 删除 编辑

原文链接: http://tecdat.cn/?p=2640  

 

可以使用逐步过程确定多重逻辑回归。此函数选择模型以最小化AIC。

 

 

如何进行多重逻辑回归

 

可以使用阶梯函数通过逐步过程确定多重逻辑回归。此函数选择模型以最小化AIC。

通常建议不要盲目地遵循逐步程序,而是要使用拟合统计(AIC,AICc,BIC)比较竞争模型,或者根据生物学或科学上合理的可用变量建立模型。

多重相关是研究潜在自变量之间关系的一种工具。例如,如果两个独立变量彼此相关,可能在最终模型中都不需要这两个变量,但可能有理由选择一个变量而不是另一个变量。

多重相关

创建数值变量的数据框

Data.num $ Status = as.numeric(Data.num $ Status)Data.num $ Length = as.numeric(Data.num $ Length)Data.num $ Migr = as.numeric(Data.num $ Migr)Data.num $ Insect = as.numeric(Data.num $ Insect)Data.num $ Diet = as.numeric(Data.num $ Diet)Data.num $ Broods = as.numeric(Data.num $ Broods)Data。 num $ Wood = as.numeric(Data.num $ Wood)Data.num $ Upland = as.numeric(Data.num $ Upland)Data.num $ Water = as.numeric(Data.num $ Water)Data.num $ Release = as.numeric(Data.num $ Release)Data.num $ Indiv = as.numeric(Data.num $ Indiv)###检查新数据框架headtail(Data.num)1 1 1520 9600.0 1.21 1 12 2 6.0 1 0 0 1 6 292 1 1250 5000.0 0.56 1 0 1 6.0 1 0 0 1 10 853 1 870 3360.0 0.07 1 0 1 4.0 1 0 0 1 3 877 0 170 31.0 0.55 3 12 2 4.0 NA 1 0 0 1 278 0 210 36.9 2.00 2 8 2 3.7 1 0 0 1 1 279 0 225 106.5 1.20 2 12 2 4.8 2 0 0 0 1 2检查变量之间的相关性###注意我在这里使用了Spearman相关
 

多个逻辑回归的例子

在此示例中,数据包含缺失值。在R中缺失值用NA表示。SAS通常会无缝地处理缺失值。虽然这使用户更容易,但可能无法确保用户了解这些缺失值的作用。在某些情况下,R要求用户明确如何处理缺失值。处理多元回归中的缺失值的一种方法是从数据集中删除具有任何缺失值的所有观察值。这是我们在逐步过程之前要做的事情,创建一个名为Data.omit的数据框。但是,当我们创建最终模型时,我们只想排除那些在最终模型中实际包含的变量中具有缺失值的观察。为了测试最终模型的整体p值,绘制最终模型,或使用glm.compare函数,我们将创建一个名为Data.final的数据框,只排除那些观察结果。

尽管二项式和poission系列中的模型应该没问题,但是对于使用某些glm拟合的步骤过程存在一些注意事项。

用逐步回归确定模型

最终模型

summary(model.final)Coefficients:Estimate Std. Error z value Pr(>|z|)(Intercept) -3.5496482  2.0827400  -1.704 0.088322 .Upland      -4.5484289  2.0712502  -2.196 0.028093 *Migr        -1.8184049  0.8325702  -2.184 0.028956 *Mass         0.0019029  0.0007048   2.700 0.006940 **Indiv        0.0137061  0.0038703   3.541 0.000398 ***Insect       0.2394720  0.1373456   1.744 0.081234 .Wood         1.8134445  1.3105911   1.384 0.166455

 

伪R平方

$Pseudo.R.squared.for.model.vs.nullPseudo.R.squaredMcFadden                             0.700475Cox and Snell (ML)                   0.637732Nagelkerke (Cragg and Uhler)         0.833284
 

 

模型的总体p值

###在最终模型中创建包含变量的数据框,并在NA中省略

偏差表分析

 

Analysis of Deviance TableModel 1: Status ~ Upland + Migr + Mass + Indiv + Insect + WoodModel 2: Status ~ 1Resid. Df Resid. Dev Df Deviance  Pr(>Chi)1        63     30.3922        69     93.351 -6  -62.959 1.125e-11 ***

似然比检验

 

Likelihood ratio test#Df  LogLik Df  Chisq Pr(>Chisq)1   7 -15.1962   1 -46.675 -6 62.959  1.125e-11 ***

 

标准化残差图

简单的预测值图

在最终模型中创建包含变量的数据框,并在NA中省略

过度离散检验

过度离散是glm的剩余偏差相对于剩余自由度较大的情况。这些值显示在模型的摘要中。一个指导原则是,如果剩余偏差与剩余自由度的比率超过1.5,则模型过度分散。过度离散表明模型不能很好地拟合数据:解释变量可能无法很好地描述因变量,或者可能无法为这些数据正确指定模型。如果存在过度离散,一种可能的解决方案是 在glm中使用quasibinomial family选项。

 

Null deviance: 93.351  on 69  degrees of freedomResidual deviance: 30.392  on 63  degrees of freedomdeviance /   df.residual[1] 0.482417

 

评估模型的替代方法:使用compare.glm

使用逐步程序的替代或补充是将竞争模型与拟合统计进行比较。我的compare.glm 函数将为glm模型显示AIC,AICc,BIC和伪R平方。使用的模型应该都适合相同的数据。也就是说,如果数据集中的不同变量包含缺失值,则应该谨慎使用。如果您对使用哪种拟合统计数据没有任何偏好,如果您希望在最终模型中使用较少的术语,我可能会推荐AICc或BIC。

一系列模型可以与标准的anova 功能进行比较。模型应嵌套在先前模型中或anova函数列表中的下一个模型中; 和模型应该适合相同的数据。在比较多个回归模型时,通常放宽包含新术语的p值为0.10或0.15。

在以下示例中,使用通过逐步过程选择的模型。请注意,虽然模型9最小化了AIC和AICc,但模型8最小化了BIC。anova结果表明模型8不是对模型7的显着改进。这些结果支持选择模型7,8或9中的任何一个。  

 

compareGLM(model.1, model.2, model.3, model.4, model.5, model.6,model.7, model.8, model.9)$ModelsFormula1 "Status ~ 1"2 "Status ~ Release"3 "Status ~ Release + Upland"4 "Status ~ Release + Upland + Migr"5 "Status ~ Release + Upland + Migr + Mass"6 "Status ~ Release + Upland + Migr + Mass + Indiv"7 "Status ~ Release + Upland + Migr + Mass + Indiv + Insect"8 "Status ~ Upland + Migr + Mass + Indiv + Insect"9 "Status ~ Upland + Migr + Mass + Indiv + Insect + Wood"$Fit.criteriaRank Df.res   AIC  AICc   BIC McFadden Cox.and.Snell Nagelkerke   p.value1    1     66 94.34 94.53 98.75   0.0000        0.0000     0.0000       Inf2    2     65 62.13 62.51 68.74   0.3787        0.3999     0.5401 2.538e-093    3     64 56.02 56.67 64.84   0.4684        0.4683     0.6325 3.232e-104    4     63 51.63 52.61 62.65   0.5392        0.5167     0.6979 7.363e-115    5     62 50.64 52.04 63.87   0.5723        0.5377     0.7263 7.672e-116    6     61 49.07 50.97 64.50   0.6118        0.5618     0.7588 5.434e-117    7     60 46.42 48.90 64.05   0.6633        0.5912     0.7985 2.177e-118    6     61 44.71 46.61 60.14   0.6601        0.5894     0.7961 6.885e-129    7     60 44.03 46.51 61.67   0.6897        0.6055     0.8178 7.148e-12Analysis of Deviance TableModel 1: Status ~ 1Model 2: Status ~ ReleaseModel 3: Status ~ Release + UplandModel 4: Status ~ Release + Upland + MigrModel 5: Status ~ Release + Upland + Migr + MassModel 6: Status ~ Release + Upland + Migr + Mass + IndivModel 7: Status ~ Release + Upland + Migr + Mass + Indiv + InsectModel 8: Status ~ Upland + Migr + Mass + Indiv + InsectModel 9: Status ~ Upland + Migr + Mass + Indiv + Insect + WoodResid. Df Resid. Dev Df Deviance Pr(>Chi)1        66     90.3432        65     56.130  1   34.213 4.94e-09 ***3        64     48.024  1    8.106 0.004412 **4        63     41.631  1    6.393 0.011458 *5        62     38.643  1    2.988 0.083872 .6        61     35.070  1    3.573 0.058721 .7        60     30.415  1    4.655 0.030970 *8        61     30.710 -1   -0.295 0.5870669        60     28.031  1    2.679 0.101686

 

 

  相关文章:

在R语言中实现Logistic逻辑回归

偏最小二乘回归(PLSR)和主成分回归(PCR)

【大数据部落】基于ARIMA、SVM、随机森林销售的时间序列预测

拟合R语言中的多项式回归

R语言泊松Poisson回归模型分析案例

【大数据部落】R语言多元Copula GARCH 模型时间序列预测

 R语言鸢尾花iris数据集的层次聚类分析

【大数据部落】电信公司churn数据客户流失 k近邻(knn)模型预测分析

面板平滑转移回归(PSTR)分析案例实现

R语言分段回归数据数据分析案例报告

基于R语言的lmer混合线性回归模型

用机器学习识别不断变化的股市状况—隐马尔科夫模型(HMM)股票指数预测实战


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69982319/viewspace-2732212/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
拓端tecdat分享最in的大数据资讯,提供“一站式”的数据分析学习和咨询体验,让我们一起做有态度的数据人。关注公众号:拓端数据部落、拓端数据。

注册时间:2020-08-21

  • 博文量
    87
  • 访问量
    35327