【陆勤读书笔记】《机器学习实用案例解析》(二)
摘要
《机器学习实用案例解析》第二章数据分析陆勤读书笔记。
【R语言】致力于传播R知识,包括【R每日一帖】、【R书籍推荐】、【R案例分享】,【R那些事】、【R微课】和【陆勤读书笔记】栏目。在这大数据时代里,从数据中找出价值,既是机遇又是挑战。R语言可以帮助我们获取数据、处理数据、分析数据、展示数据和理解数据,以进行数据化决策!
亲们,大家好。
小编已经阅读好了《机器学习实用案例解析》第二章数据分析的内容,我读了三遍后,觉得要写点笔记了。
这份笔记包括以下内容
1 小编记在本子上面的东西
2 小编所思考的一些问题
3 小编所写的R代码摘录
一.小编记在本上面的东西,采用列举法来说明。
第一点:统计学家John Tukey提出把数据处理分解为分析和验证两步,分析这一步要做的就是用摘要表和基本可视化方法从数据中寻找隐含的模式,可以视为探索性数据分析(EDA),验证这一步常有交叉验证和假设检验,前者使用测试数据集来检验模型,后者使用概率理论检验原始数据集中发现的模式是否合理。
第二点:数值摘要常有均值、众数、百分位数、中位数、标准差、方差;可视化工具常用直方图、核密度估计以及散点图。
第三点:对数据进行解释需要对数据集的来源有一定的了解,通常唯一能够区别因果关系和相关系的的方法就是知道数据从何而来。
第四点:对于数据集中列,可以把每一列摘要成为一个数字、或者把一列摘要成一张图、或者描述多列之间的关系以及采用降维(把数据集中所有列转换成少数几列)
第五点:每一列的属性的数据类型。
第六点:把数据集中的数字放在适当的上下文字中,顿时就变得有意义了。
第七点:获知数据的含义方法,使用人类的直觉,并且借助Google搜索。
第八点:可视化分析数据,1)单列可视化,侧重数据的形状;2)双列可视化,反映两列之间的关系。
二.小编所思考的一些问题,欢迎朋友们参与交流和分享。
问题一:均值、众数、中位数,三者之间有什么差异,在表示数据集中程度上面有什么特点?
问题二:方差和标准差是什么关系,如何计算标准差?
问题三:数据和数据集如何理解和描述?
问题四:数值摘要降维处理有什么差异,有哪些常用的降维方法?
问题五:如何判断属性的数据类型?
问题六:虚拟变量编码怎么处理?
问题七:如何数据直觉?
问题八:如何高效地使用Google获取有用的信息?
问题九:如何利用ggplot2包画直方图,可调参数区间间隔对图形的影响?
问题十:过平滑和欠平滑怎么理解?对理解数据有什么影响?
问题十一:如何利用ggplot2包画密度曲线图?
问题十二:单峰分布和多峰分布、对成分布和偏态分布(左偏和右偏)、窄尾分布和重尾分布,怎么理解?
问题十三:预测有那些类型?
问题十四:回归和分类有什么差异?
问题十五:怎么设计和实现推荐?
三.小编所写的R代码部分摘录,利用R代码体会探索性数据分析(EDA)。
代码清单一:自编中位数函数
> #自编中位数函数
> #中位数是基于由小到大的有序数中间数
> #对于有序数的个数为偶数,中间数有两个数,中位数就是这两个数的均值
> my.median <- function(x) {
+ sorted.x <- sort(x)
+
+ if(length(x) %% 2 == 0) {
+ indices <- c(length(x) / 2, length(x) /2 + 1)
+ return(mean(sorted.x[indices]))
+ }
+ else {
+ index <- ceiling(length(x) / 2)
+ return(sorted.x[index])
+ }
+ }
>
> #利用自编的函数进行测试
> my.vector <- 1:4
> my.vector
[1] 1 2 3 4
> my.median(my.vector)
[1] 2.5
> #使用R中提供的中位数函数
> median(my.vector)
[1] 2.5
代码清单二:使用ggplot2包绘制正态分布密度曲线图
> #利用ggplot2包绘制正态分布密度曲线图
> library(ggplot2)
> set.seed(1)
> norm.values <- rnorm(10000, 0, 1)
> ggplot(data.frame(X=norm.values), aes(x=X)) + geom_density()
图形效果
小编的观点,建议阅读这块内容,首先把书本上面的代码都实践一遍,在实践的过程中理解和修改R代码。期待更多朋友们阅读这本书,大家能够相互交流,小编微信号:wangluqing360,欢迎添加,一起交流。
◆互动交流
我是陆勤,微信号:wangluqing360,你们在R路上的朋友,一起欣赏R路上的风景。
大数据R语言群:342699237,大数据学习平台:www.ppvke.com,欢迎朋友们加入,共建最好的R社区。欢迎读者朋友们撰稿深度挖掘,回复消息给我留言或者邮件至1181906473@qq.com。
◆如何查看更多好文章
查看【历史记录】
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!