【机器学习】给非开发人员介绍机器学习
笔者邀请您,先思考:
1您怎么理解机器学习?
关于机器学习
我们都知道机器学习是关于处理数据的,但它也可以被看作是:
通过浏览数据内部信息来查找数据中的规律的艺术。
预测模型的一些背景
有几种类型的预测模型。 这些模型通常有几个输入列和一个目标或结果列,这是要预测的变量。
所以基本上,一个模型执行输入和输出之间的映射,发现神秘的,有时是输入变量之间的关系,以预测任何其他变量。
正如你可能注意到的那样,它与一个读取环境=>处理信息=>并执行特定操作的人有一些共同点。
那么这篇文章是关于什么的?
这是关于熟悉最常用的预测模型之一:随机森林(官方算法网站),在R中实现,它是最常用的模型之一,因为它在调优方面很简单并且可以处理许多不同类型的数据。
如果你以前从未做过预测模型,那么这可能是一个很好的起点;)
不要迷失在森林里!
其背后的基本思想是构建数百甚至数千个简单且不太稳健的模型(也称为决策树),以便具有较少偏见的模型。
但是如何?
这些决策树模型的每个“微小”分支都将只看到整个数据的一部分,以产生他们的基本预测。 所以随机森林模型产生的最终决策是所有决策树投票的结果。 就像民主一样。
什么是决策树?
您已经熟悉决策树的输出:它们产生IF-THEN规则,例如,如果用户有五次以上的访问,他或她可能会使用该应用程序。
放在一起
如果一个随机森林有三棵树(通常是500多棵)并且有新客户到达,那么如果“两棵树”预测“是”,则预测所述客户是否会购买某种产品将是’是’。
拥有数百个意见 – 决策树 – 往往会在随机森林中产生更准确的结果。
但不要惊慌,以上所有内容都被封装给数据科学家。
有了这个模型,您将无法轻松知道模型如何为每个输入案例分配高概率或低概率。 它更像一个黑盒子,类似于神经网络的深度学习,其中每个神经元都对整体有贡献。
您可以使用来自blopig.com和datascienceplus.com中基于R的两个友好的随机森林教程来实践。
什么语言方便学习机器学习?
如果你想开发你自己的数据科学项目,你可以从R开始。它有一个庞大的社区,你可以从中学习(和分享)。 这并不总是只是一个复杂的算法问题,而是当事情没有如预期那样得到支持时。
这经常发生在你做新事物时。
最后,一些关于社区支持的数字
尽管R(以及Python与pandas和numpy)有很多包,库,免费书籍和免费课程,但请检查这些指标:在stackoverflow.com中有236,000多个问题,另有约18,000个在stats.stackexchange .com标有R(截至2018年5月)。
R社区增长很多!
在我发布 https://auth0.com (2016年12月)时,在stackoverflow上有16万个问题。
现在,236,000个问题在短短一年半的时间里就增长了47%!
原文链接:
https://blog.datascienceheroes.com/introduction-to-machine-learning-for-non-developers/
版权声明:作者保留权利,严禁修改,转载请注明原文链接。
您有什么见解,请留言。
文章推荐:
加入数据人圈子或者商务合作,请添加笔者微信。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。
平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
我们努力坚持做原创,聚合和分享优质的省时的数据知识!
我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!
点击阅读原文,进入数据人网,获取数据知识。
公众号推荐:
链达君,专注于分享区块链内容。
数据科学与人工智能,专注于分享数据科学与人工智能的内容。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!