【机器学习】用R演示逻辑回归过程-婚姻出轨案例
理论
Logistic回归适用于二值响应变量(0,1)。模 型 假 设Y服从二项分布,线性模型的拟合形式为:
其中,π= μ(Y)是Y的条件均值(即给定一系列X的值时Y =1的概率),(π/1-π)为Y=1时的优势比,log(π/1-π)为对数优势比。
案例
我们用婚外情数据即著名的“Fair’s Affairs”,取自于1969年《今日心理》(Psychology Today)所做的一个非常有代表性的调查,该数据从601个参与者身上收集了9个变量,包括一年来婚外私通的频率以及参与者性别、年龄、婚龄、是否有小孩、宗教信仰程度(5分制,1分表示反对,5分表示非常信仰)、学历、职业(排序后),还有对婚姻的自我评分( 1表示非常不幸福,5表示非常幸福)。
变量说明:
首先做描述性分析
可以看出,52%的调查对象是女性,72%的人有孩子,样本年龄的中位数为32岁。对于响应变量,72%的调查对象表示过去一年中没有婚外情(451/601),而婚外偷腥的最多次数为12(占了6%)。
做变量转换(外遇转换为二值变量)
逻辑回归
从回归系数的p值(最后一栏)可以看到,性别、是否有孩子、学历和职业对方程的贡献都不显著。去除这些变量重新拟合模型。
新模型的每个回归系数都非常显著(p<0.05)。对两个模型进行比较。
结果的卡方值不显著(p=0.21),表明四个预测变量的新模型与九个完整预测变量的模型拟合程度一样。
解释参数
可以看到婚龄增加一年,婚外情的优势比将乘以1.11(保持年龄、宗教信仰和婚姻评定不变);相反,年龄增加一岁,婚外情的的优势比则乘以0.97。因此,随着婚龄的增加和年龄、宗教信仰与婚姻评分的降低,婚外情优势比将上升。因为预测变量不能等于0,截距项在此处没有什么特定含义。
数据人网作者:张晓东(结实)
从事过产业咨询,地产咨询,汽车咨询,现任某咨询公司资深数据分析师
严禁修改,可以转载,请注明出自数据人网和原文链接。
今日数据人网精选推荐:
《R语言可视化基础 》
点击【阅读原文】,查看更多。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!