【机器学习】监督学习之逻辑回归
logistic回归,它是概率型非线性回归,在流行病学中有着很广泛的应用,常用来分析疾病与危险因素之间的定量关系,例如分析癌症发生于吸烟、饮酒等危险因素的关系。
Logistic回归
Logistics回归研究的是二分类观察结果与其影响因素之间关系的分析方法,二分类观察结果,即它的因变量Y是个二值变量,如:
在各因素都处于低水平或高水平时,预测值Y可能超出0~1范围,出现不合理现象,用Logistic回归分析则可以较好的解决上述问题。
调用函数
glm(formula,family, data)
参数解释:formula,形如Y~X1+X2+X3+…,表示一个因变量Y与其自变量X1,X2,X3…;data为数据集在R中的名称;family为分布族,可以设定所用函数,对于logistic回归分析来说,其参数应设定为binomial(link=logit)。
注:glm()函数是用来拟合广义线性模型的函数,logistic回归分析只是其中之一。对于glm()函数的family参数部分,这里提供一些信息以便了解。
此外,对glm()函数非常有用的其他函数
示例:数据为研究吸烟(X1)、饮酒(X2)与食管癌(Y)关系的病例–对照资料。试作logistic回归分析。
A:操作步骤如下,基本信息查看
B:模型拟合与检验
C:如何解释
-
图中可以看到参数对模型均有很显著的影响,所以可以说吸烟与饮酒对于食管癌有着很显著的影响;此外,通过参数的显著与否还可以适当的删除变量,并通过卡方检验等方法比较模型,确定最佳模型,在本例中,自变量对模型影响显著,是一个很好的模型,不需要进行变量的删除与模型比较。
-
对于每个参数解释,使用下面的方法更好解释:
这里告诉我们,保持其他变量不变,吸烟增加一个单位,患食管癌的几率的优势比(患病与不患病的比值)将增加1.424倍。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!