• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      R语言

      • 首页
      • 博客
      • R语言
      • 【数据模型】逻辑回归模型预测股票涨跌

      【数据模型】逻辑回归模型预测股票涨跌

      • 发布者 weinfoadmin
      • 分类 R语言
      • 日期 2016年6月18日
      测试开头

      数据人网是数据人学习、交流和分享的平台http://shujuren.org

      专注于从数据中学习,平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。

      您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)其它与数据相关的干货。

      我们坚持做原创!!

      数据资料、数据课程、数据圈子、数据工作和数据项目服务,请加微信:

      luqin360


      逻辑回归是一个分类器,其基本思想可以概括为:对于一个二分类(0~1)问题,若P(Y=1/X)>0.5则归为1类,若P(Y=1/X)<0.5,则归为0类。

      一、模型概述

      1、Sigmoid函数

      为了具象化前文的基本思想,这里介绍Sigmoid函数:

      【数据模型】逻辑回归模型预测股票涨跌
      函数图像如下:

      【数据模型】逻辑回归模型预测股票涨跌
      红色的线条,即x=0处将Sigmoid曲线分成了两部分:当 x < 0,y < 0.5 ;
      当x > 0时,y > 0.5 。

      实际分类问题中,往往根据多个预测变量来对响应变量进行分类。因此Sigmoid函数要与一个多元线性函数进行复合,才能应用于逻辑回归。

      2、逻辑斯谛模型

      【数据模型】逻辑回归模型预测股票涨跌
      其中θx=θ1x1+θ2x2+……+θnxn 是一个多元线性模型。

      上式可转化为:

      【数据模型】逻辑回归模型预测股票涨跌
      公式左侧称为发生比(odd)。当p(X)接近于0时,发生比就趋近于0;当p(X)接近于1时,发生比就趋近于∞。

      两边取对数有:

      【数据模型】逻辑回归模型预测股票涨跌
      公式左侧称为对数发生比(log-odd)或分对数(logit),上式就变成了一个线性模型。

      不过相对于最小二乘拟合,极大似然法有更好的统计性质。逻辑回归一般用极大似然法来拟合,拟合过程这里略过,下面只介绍如何用R应用逻辑回归算法。

      二、逻辑回归应用

      1、数据集

      应用ISLR包里的Smarket数据集。先来看一下数据集的结构:

      1. > summary(Smarket)

      2.      Year           Lag1                Lag2          

      3. Min.   :2001   Min.   :-4.922000   Min.   :-4.922000  

      4. 1st Qu.:2002   1st Qu.:-0.639500   1st Qu.:-0.639500  

      5. Median :2003   Median : 0.039000   Median : 0.039000  

      6. Mean   :2003   Mean   : 0.003834   Mean   : 0.003919  

      7. 3rd Qu.:2004   3rd Qu.: 0.596750   3rd Qu.: 0.596750  

      8. Max.   :2005   Max.   : 5.733000   Max.   : 5.733000  

      9.      Lag3                Lag4                Lag5        

      10. Min.   :-4.922000   Min.   :-4.922000   Min.   :-4.92200  

      11. 1st Qu.:-0.640000   1st Qu.:-0.640000   1st Qu.:-0.64000  

      12. Median : 0.038500   Median : 0.038500   Median : 0.03850  

      13. Mean   : 0.001716   Mean   : 0.001636   Mean   : 0.00561  

      14. 3rd Qu.: 0.596750   3rd Qu.: 0.596750   3rd Qu.: 0.59700  

      15. Max.   : 5.733000   Max.   : 5.733000   Max.   : 5.73300  

      16.     Volume           Today           Direction

      17. Min.   :0.3561   Min.   :-4.922000   Down:602  

      18. 1st Qu.:1.2574   1st Qu.:-0.639500   Up  :648  

      19. Median :1.4229   Median : 0.038500            

      20. Mean   :1.4783   Mean   : 0.003138            

      21. 3rd Qu.:1.6417   3rd Qu.: 0.596750            

      22. Max.   :3.1525   Max.   : 5.733000

      Smarket是2001年到2005年间1250天的股票投资回报率数据,Year是年份,Lag1~Lag5分别指过去5个交易日的投资回报率,Today是今日投资回报率,Direction是市场走势,或Up(涨)或Down(跌)。

      先看一下各变量的相关系数:

      1. library(corrplot)

      2. corrplot(corr = cor(Smarket[,-9]),order = "AOE",type = "upper",tl.pos = "d")

      3. corrplot(corr = cor(Smarket[,-9]),add=TRUE,type = "lower",method = "number",order = "AOE",diag = FALSE,tl.pos = "n",cl.pos = "n")

      【数据模型】逻辑回归模型预测股票涨跌

      可见除了Volume和Year之间相关系数比较大,说明交易量基本随年份在增长,其他变量间基本没多大的相关性。说明股票的历史数据与未来的数据相关性很小,利用监督式学习方法很难准确预测未来股市的情况,这也是符合常识的。不过作为算法的应用教程,我们还是试一下。

      2、训练并测试逻辑回归模型

      逻辑回归模型是广义线性回归模型的一种,因此函数是glm(),但必须加上参数family=binomial。

      1. > attach(Smarket)

      2. > # 2005年前的数据用作训练集,2005年的数据用作测试集

      3. > train = Year<2005

      4. > # 对训练集构建逻辑斯谛模型

      5. > glm.fit=glm(Direction~Lag1+Lag2+Lag3+Lag4+Lag5+Volume,

      6. +             data=Smarket,family=binomial, subset=train)

      7. > # 对训练好的模型在测试集中进行预测,type="response"表示只返回概率值

      8. > glm.probs=predict(glm.fit,newdata=Smarket[!train,],type="response")

      9. > # 根据概率值进行涨跌分类

      10. > glm.pred=ifelse(glm.probs >0.5,"Up","Down")

      11. > # 2005年实际的涨跌状况

      12. > Direction.2005=Smarket$Direction[!train]

      13. > # 预测值和实际值作对比

      14. > table(glm.pred,Direction.2005)

      15.        Direction.2005

      16. glm.pred Down Up

      17.    Down   77 97

      18.    Up     34 44

      19. > # 求预测的准确率

      20. > mean(glm.pred==Direction.2005)

      21. [1] 0.4801587

      预测准确率只有0.48,还不如瞎猜。下面尝试着调整模型。

      1. #检查一下模型概况

      2. > summary(glm.fit)

      3. Call:

      4. glm(formula = Direction ~ Lag1 + Lag2 + Lag3 + Lag4 + Lag5 +

      5.    Volume, family = binomial, data = Smarket, subset = train)

      6. Deviance Residuals:

      7.   Min      1Q  Median      3Q     Max  

      8. -1.302  -1.190   1.079   1.160   1.350  

      9. Coefficients:

      10.             Estimate Std. Error z value Pr(>|z|)

      11. (Intercept)  0.191213   0.333690   0.573    0.567

      12. Lag1        -0.054178   0.051785  -1.046    0.295

      13. Lag2        -0.045805   0.051797  -0.884    0.377

      14. Lag3         0.007200   0.051644   0.139    0.889

      15. Lag4         0.006441   0.051706   0.125    0.901

      16. Lag5        -0.004223   0.051138  -0.083    0.934

      17. Volume      -0.116257   0.239618  -0.485    0.628

      18. (Dispersion parameter for binomial family taken to be 1)

      19.    Null deviance: 1383.3  on 997  degrees of freedom

      20. Residual deviance: 1381.1  on 991  degrees of freedom

      21. AIC: 1395.1

      22. Number of Fisher Scoring iterations: 3

      可以发现所有变量的p值都比较大,都不显著。前面线性回归章节中提到AIC越小,模型越优,这里的AIC还是比较大的。

      加入与响应变量无关的预测变量会造成测试错误率的增大(因为这样的预测变量会增大模型方差,但不会相应地降低模型偏差),所以去除这样的预测变量可能会优化模型。

      上面模型中Lag1和Lag2的p值明显比其他变量要小,因此只选这两个变量再次进行训练。

      1. > glm.fit=glm(Direction~Lag1+Lag2,

      2. +             data=Smarket,family=binomial, subset=train)

      3. > glm.probs=predict(glm.fit,newdata=Smarket[!train,],type="response")

      4. > glm.pred=ifelse(glm.probs >0.5,"Up","Down")

      5. > table(glm.pred,Direction.2005)

      6.        Direction.2005

      7. glm.pred Down  Up

      8.    Down   35  35

      9.    Up     76 106

      10. > mean(glm.pred==Direction.2005)

      11. [1] 0.5595238

      12. > 106/(76+106)

      13. [1] 0.5824176

      这次模型的总体准确率达到了56%,总算说明统计模型的预测准确度比瞎猜要好(虽然只有一点点)。根据混淆矩阵,当逻辑回归模型预测下跌时,有50%的准确率;当逻辑回归模型预测上涨时,有58%的准确率。(矩阵的行名表预测值,列名表实际值)

      应用这个模型来预测2组新的数据:

      1. > predict(glm.fit,newdata = data.frame(Lag1=c(1.2,1.5),Lag2=c(1.1,-0.8)),type="response")

      2.        1         2

      3. 0.4791462 0.4960939

      可见对于(Lag1,Lag2)=(1.2,1.1)和(1.5,-0.8)这两点来说,模型预测的都是股票会跌。需要注意的是,逻辑回归的预测结果并不能像线性回归一样提供置信区间(或预测区间),因此加上interval参数也没用。

      参考文献

      [1]R语言数据分析系列之九 – 逻辑回归
      [2] Gareth James et al. An Introduction to Statistical Learning.

      严禁修改,可以转载,请注明出自数据人网和原文链接。


      数据博主更多干货

      《多元线性回归实战笔记》

      《用贝叶斯判别分析再次预测股票涨跌情况》

      点击【阅读原文】,即刻赏悦。


      数据人网官方公众号:数据科学自媒体,分享和传播数据科学领域干货。

      【数据模型】逻辑回归模型预测股票涨跌

      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      【工作帮】一大批数据工作袭来!!
      2016年6月18日

      下一篇文章

      【数据模型】使用neuralnet包在R中拟合一个神经网络模型
      2016年6月20日

      你可能也喜欢

      3-1665801675
      R语言学习:重读《R数据科学(中文版)》书籍
      28 9月, 2022
      6-1652833487
      经典铁死亡,再出新思路
      16 5月, 2022
      1-1651501980
      R语言学习:阅读《R For Everyone 》(第二版)
      1 5月, 2022

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?