【Paper】机器学习那些事
机器学习相关的论文非常多,有综述性的论文,有算法研究类的论文,有算法解决实际问题的论文等。研究和应用机器学习,阅读一些论文,是必要的事情。
《机器学习那些事》这篇论文,作者总结了机器学习应用的一些独特而新颖的认知。通过阅读这篇论文,对指导机器学习解决实际问题肯定是大有裨益的。因此,建议您腾出一点时间,阅读一下这篇论文,让自己能够更加灵活而有效地应用机器学习。
机器学习系统
机器学习系统自动地从数据中学习程序。
机器学习系统特点:
-
自动化或者半自动化
-
专注于从数据中学习
-
基于从数据中学习的编程式
分类问题
分类问题是机器学习常用问题,也是本论文所探讨的问题。但是,本文所总结的知识使用于其它机器学习问题。
一个分类器是一个系统,系统输入是一个包括若干离散或者连续的特征值的向量,系统输出是一个离散值。
学习器的训练是指从训练数据集中学习到的分类器。
学习器的检验是判断从训练集学习到的分类器对将来的输入样例是否能够输出正确的类别。
学习 = 表示 + 评价 + 优化
机器学习算法由三部分组成。
-
表示(Representation):为学习器选择一种表示,意味着选择一个特定的分类器的集合,学习器可能学出的分类器只能在这个集合中,这个集合被称为学习器的假设空间。与此相关的问题,如何表示输入?即使用那些特征。
-
评价(Evaluation):设计一个评价函数(目标函数或者打分函数)来判断分类器的优劣。
-
优化(Optimization):通过优化技术,在假设空间找到评价函数得分最高的那个分类器。

机器学习的注意点
-
泛化很重要
-
仅有数据还不够(学习器把知识和数据结合生成程序)
-
过拟合有多种形式(学习器偏差和方差的平衡)
-
维度灾难
-
理论与实际的异同
-
特征工程是关键
-
更多的数据胜过更聪明的方法(机器学习就是研究如何让数据发挥作用的)
-
学习很多模型,而不仅仅是一个(集成学习技术)
-
简单并不意味着准确
-
可表示并不意味着可学习
-
相关并不意味着因果
总结
本论文总结了机器学习教材或者其它论文里面没有谈及的内容,但是,对指导机器学习解决实际问题很有帮助的知识。
论文下载链接
-
英文版:https://pan.baidu.com/s/1TMVrvogM2ADuOKSCrQa4Jg
-
中文版:https://pan.baidu.com/s/1MJPjt8jPrr1_6fIWyLPXTw
您在阅读中,有什么想法或者见解,请留言。
版权声明:作者保留权利,严禁修改,转载请注明原文链接。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。
平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
我们努力坚持做原创,聚合和分享优质的省时的数据知识!
我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!
点击阅读原文,进入数据人网。
公众号推荐:
链达君,专注于分享区块链内容。

艾鸽英语,专注于分享英语口语内容。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!