• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      未分类

      • 首页
      • 博客
      • 未分类
      • 实战数据科学|1数据科学过程阅读笔记(书籍和配套代码,可供下载)

      实战数据科学|1数据科学过程阅读笔记(书籍和配套代码,可供下载)

      • 发布者 weinfoadmin
      • 分类 未分类
      • 日期 2021年9月9日
      • 评论 0评论

      专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。

      点击上方蓝字关注我,一起学习R语言


      最近,我在阅读《Practical Data Science With R》这本书籍。这是一本超赞的R语言实战数据科学书籍,先上2张图:

      这本书籍和配套源代码我给大家准备好了。公众号后台回复“R实战数据科学”,获取资源的领取方式。



      第一章 数据科学过程阅读笔记

      本章涵盖:
      1. 定义数据科学

      2. 定义数据科学项目角色

      3. 了解数据科学项目各环节

      4. 为新的数据科学项目设定预期


      让我们直奔主题!

      01

      数据科学是什么?



      数据科学是一种跨学科的实践,它借鉴和吸取数据工程、统计学、数据挖掘、机器学习和预测分析等方法。

      数据科学专注于实施数据驱动决策并管理其结果。本书专注于数据科学在商业和科学问题的应用。

      数据科学家负责从头到尾地指导数据科学项目。数据科学项目的成功不在于获得任何一种外来工具,而在于具有可量化的目标,良好的方法论,跨学科的互动以及可重复的工作流程。

      02

      数据科学项目角色



      数据科学项目角色和职责,如下图所示。


      关于这些角色,一些要点记录如下:

      1) 数据科学项目中最重要的角色是项目发起人。发起人是想要数据科学成果的人;通常,它们代表商业利益。

      2) 发起人是代表商业利益的角色,而客户是代表模型的最终用户利益的角色。有时,发起人和客户端角色可能由同一个人担任。

      3) 数据科学家负责采取一切必要的步骤来确保项目成功,包括制定项目战略和让客户了解情况。他们设计项目步骤,选择数据源,并选择要使用的工具。

      4) 数据架构师负责所有数据及其存储。这个角色通常由数据科学组以外的人员担任,例如数据库管理员或架构师。

      03

      数据科学项目各环节



      数据科学项目各环节,如下图所示。


      1 确定目标

      数据科学项目的第一个任务是定义一个可度量和可量化的目标。本环节,尽量全面了解项目背景。

      2 数据采集和管理 

      本环节包括确定所需的数据,探索数据并整理数据以适合分析。本环节需要耗费大量时间和精力。哪些数据可用?哪些数据有助于解决问题?数据是否足够?数据质量是否足够好?

      3 模型

      在建模和分析阶段,使用统计学和机器学习。典型的数据科学模型任务:分类问题,评分问题,排序问题,聚类问题,关系问题和概述问题 。

      4 模型评价

      根据所解决的问题,选择合适的评价准则,对模型的效果做出评价。

      5 展示和文档化

      模型达到预期后,向利益相关人做结果展示和沟通。

      6 模型部署和维护

      模型投入运行,并做模型性能监控和维护,为模型的迭代和优化做指导。

      04

      设定预期



      设定预期和预期管理是定义项目目标和成功标准的关键部分。为新的数据科学项目设定预期,需要定好模型性能的边界。

      更多细节,请阅读书籍。

      书籍和配套源代码获取方式,请在公众号后台回复“R实战数据科学”。

      推荐阅读   


      1 R语言机器学习3本经典书籍集合本,提高你的R语言和机器学习能力!(可供下载)

      2 R数据分析和可视化培训课程书籍,5大模块,助你学习数据分析和挖掘技术(可供下载)


      3 R语言实战英文书籍,配套源代码,帮助你学习R语言!(可下载)


      推荐公众号:数据科学与人工智能

      数据科学与人工智能公众号推广Python语言,数据科学与人工智能的知识和信息。扫码下方二维码关注我,一起学习Python语言和数据科学与人工智能。



      依托【R语言】公众号,我创建了R语言群,群友们每天都会就R语言的主题进行交流和分享。需要加入R语言群的朋友,可以扫码加我的个人微信,请备注【姓名-入群】。我诚邀你加入群,大家相互学习和共同进步。

      你在阅读中有什么问题,请留言或加R语言群,交流和讨论。

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      R语言DataExplorer包:促进探索性数据分析(EDA)
      2021年9月9日

      下一篇文章

      PDFMV框架的D
      2021年9月9日

      你可能也喜欢

      2-1675088548
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      30 1月, 2023
      9-1675131201
      如何快速批量修改 Git 提交记录中的用户信息
      26 1月, 2023
      8-1678501786
      肿瘤细胞通过改变CD8+ T细胞中的丙酮酸利用和琥珀酸信号来调控抗肿瘤免疫应答。
      7 12月, 2022

      留言 取消回复

      要发表评论,您必须先登录。

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?