AI+大数据的四个突破点
从我三年前触到数据驱动业务的概念之后,便认定数据科学就是未来。
通过合理使用大量数据,大批新应用、新行业应运而生。语音识别,计算机视觉中的物体识别,机器人,自动驾驶汽车,生物信息学,神经科学,系外行星的发现,对宇宙起源的理解,以及在经费有限的条件下,组织一支胜出的足球队。
有成绩,有产出,数据分析是各行业的核心。
数据科学是一门交叉学科,除了计算机相关知识,还需要有统计学、数学基础,以及一定业务知识。所以可以作为终身职业发展目标,慢慢积累进步。简单来说:数据科学家=技术+业务。
数据分析我们可以整理这样一个链条“能够获取数据 —— 能够理解数据 —— 处理数据,从中提取价值,可视化并传达信息“。


从业务来说数据分析主要是分为三块:
1. 通过数据发现用户需求以创造产品、新增功能或者优化产品,比如各种的用户的报告和用户行为的分析等;
2. 提升产品效率,找到数据环节的漏斗,并且进行针对性的提升,比如对应用新增在不同场景的转化环节进行分析得到产品新增效率的提升点;
3. 定位问题,当应用线上出现问题,对线上的问题进行评估、定位和解决时,需要进行不同程度的数据分析,比如产品注册率付费率下降、线上核心功能用户减少等等需要进行定位并解决;
一旦公司业务出现问题的时候,其分析问题效率和处理问题的效率往往比缺乏经验没有思路的同学要高出一个数量级。


大致是所有从底层数据工作者往上发展的基本路径。(*黄宝臣)
1. 第一阶段(一般岗位叫数据专员)
基本学会excel(VBA最好学会;会做透视表;熟练用筛选、排序、公式),做好PPT。这样很多传统公司的数据专员已经可以做了。
2. 第二阶段(数据专员~数据分析师)
这一阶段要会SQL,懂业务,加上第一阶段的那些东西。大多数传统公司和互联网小运营、产品团队够用了。
3. 第三阶段(数据分析师)
统计学熟练(回归、假设检验、时间序列、简单蒙特卡罗),可视化,PPT和excel一定要溜。这些技术就够了,能应付大多数传统公司业务和互联网业务。
4. 第四阶段(分裂)
-
数据分析师(数据科学家)、BI等:这部分一般是精进统计学,熟悉业务,机器学习会使用(调参+选模型+优化),取数、ETL、可视化啥的都是基本姿态。
-
ETL工程师:顾名思义,做ETL的。
-
数据工程师(一部分和数据挖掘工程师重合):机器学习精通级别(往往是几种,不用担心不是全部,和数据分析师侧重点不同,更需要了解组合模型,理论基础),会组合模型形成数据产品;
-
爬虫工程师:顾名思义,最好http协议、tcp/ip协议熟悉。技术发展路线可以独立。
如果你的目标是入门初级数据分析,那么我推荐卡牌大师整理的经典书单。


为了让大家能够高效率迈入数据分析的大门,也顺带着轻松的走进人工智能行业,我们邀请硅谷顶级科学家为大家在线直播100节免费公开课,一周4-8节课。
不要认为免费的公开课就没有干货。每周一次的Review Session,我们会提前一周给出几个备选主题,由群内的同学们自主投票选择最心仪的主题。
这100节公开课有多硬核呢?设计紧密围绕学术界最新进展以及工业界的需求,涵盖了80%的人工智能知识点,并且结合了大量实战项目,包括热门的数据分析,自动驾驶,聊天机器人等项目,培养学员的动手能力,解决问题能来以及对知识的深入理解。
来看一下这周被选中的公开课主题,数据分析,数据可视化,深度学习,Python开发等共9节。
扫描海报二维码入群,
加入免费公开课。
以下为具体时间安排及主题总览。
基于spark的客户营销模型
时间: 2月19日(周二)晚上8:30
内容介绍
▼
–熟悉spark mllib和spark ml模块的使用
-spark机器学习模块建模
-使用spark完成模型训练和评估
主讲人介绍
▼

北航计算机博士,曾参与多项国家自然科学基金及国家科技支撑计划项目,多篇论文被SCI、EI及中文核心期刊检索。目前就职于第四范式,任职资深算法工程师,擅长分布式系统,负责算法改进及其产品化、数据建模及可视化等。
自动驾驶中的方向盘转动方向预测
( Steering Prediction)
时间: 2月13日(周三)下午1:00
内容介绍
▼
– 问题的目标和难点
– 传统的方案:道路检测、车辆检测
– 基于深度学习的端到端学习
– 怎么处理数据不平衡
– 传统模型和端到端模型的比较
主讲人介绍
▼

美国微软总部和美国亚马逊总部的资深推荐系统工程师、主导多款核心推荐系统的研发,是人工智能、分布式系统、云计算方面的专家。 博士毕业于美国新泽西理工,拥有14年人工智能、推荐系统、自然语言处理、数字图像和视频处理项目经验。曾师从中国科学院王守觉院士从事人脸识别研究、共同发表论文。在美国博士期间,主要研究NASA(美国航天局)支持的基于人工智能的空间天气预测项目。先后在AI相关会议和杂志上发表过15篇以上的论文。
基于spark的文本分类模型
时间: 2月21日(周四)晚上8:30
内容介绍
▼
–使用spark sql完成数据清洗
-使用spark ml完成特征工程
-使用spark ml完成聚类模型
-基于RFM模型进行用户画像
主讲人介绍
▼

手写Web框架之路由篇
时间: 2月21日(周四)晚上8:30
内容介绍
▼
– Web的运行机制
– 讲讲wsgi、uWSGI、uwsgi、CGI、FastCGI
– 请求参数以及响应参数简单解析
– 修饰器动态添加路由
主讲人介绍
▼
实时目标检测深度神经网络SSD
时间: 2月22日(周五)下午1:00
内容介绍
▼
– 物体检测在计算机视觉领域中的应用
– 目标检测经典深度神经网络介绍 RCNN, Fast-RCNN, Faster-RCNN, YOLO
– SSD神经网络介绍
– SSD与Faster-RCNN准确率对比
– SSD与YOLO准确率对比
主讲人介绍
▼

适用于移动/IOT设备的深度神经网络
时间: 2月23日(周六)下午1:00
内容介绍
▼
深度学习网络的功能强大, 但是移动/IOT设备上面的计算资源受限, 无法直接使用, 我会和大家分享适用于移动/IOT设备的深度神经网络
1. MobileNet
2. ShuffleNet
3. EffNet
主讲人介绍
▼

数据分析必会技能:文本挖掘
时间: 2月23日(周六)晚上8:30
内容介绍
▼
1. 文本挖掘概述
2. 分词
3. 词性标注
4. 文档相似度
5. 词云展示
主讲人介绍
▼
资深算法工程师,北京化工大学硕士,北京航空航天大学博士,东方国信数据挖掘工程师,第四范式NLP工程师,负责过电信终端换机项目、电信套餐升档项目、银行知识图谱项目、证券公司问答系统项目等。
手写Web框架之数据持久化篇
时间: 2月24日(周六)晚上8:30
内容介绍
▼
– pymysql的线程池
– 说说关于ORM
– 基类的CUDR实现
– 环境隔离的配置
主讲人介绍
▼

基于pyspark的商业银行用户流失预测
时间: 2月2日4(周日)晚上8:30
内容介绍
▼
-spark基本语法
– GBDT原理推导
-Pyspark构建一个流失预警模型
-模型的评估、超参数选择
主讲人介绍
▼

报名方式
扫描海报二维码进群
加入免费公开课。
具体主题由学员投票决定
-
企业开发中代码是如何管理的
-
一起聊聊AI/数据相关岗位的技能图谱,职业规划,未来前景
-
一小时弄清楚自然语言处理技术概览以及应用场景
-
用例子来说明机器学习中的 MLE vs MAP vs 贝叶斯估计的区别
-
面试必考题:逻辑回归模型以及数学推导
-
一小时弄清楚什么是卷积神经网络
-
Python中那些不得不会的算法题目
-
大话面向对象
-
爬虫开发过程中那些绕不过的登录怎么办
-
Python结合计算机视觉技术进行验证码识别
-
高质量的代码必经之路-单元测试该怎么做
-
Python操作MongoDB
-
Python操作MySQL
-
爬虫开发中不得不掌握的正则技术
-
Python企业开发规范
-
Python Web开发框架Django入门
-
Python Web开发框架Flask入门
-
Python 抓取贴吧评论并进行分析
-
零基础搭建简单的问答系统
-
怎么用知识图谱做金融风控系统
-
利用端到端的学习(end-to-end learning)搭建无人驾驶系统
-
搭建一个简单的目标检测系统(object detection)
-
深度学习的可解释性:深入浅出深度学习中的可视化(visualization)
-
聊聊中美人工智能人才培养、技术创新以及差异性
-
推荐系统中的常见算法介绍
-
矩阵分析(Matrix Factorization)详解:推荐系统最离不开的算法
-
几行代码可以实现的算法: KNN的详解
-
Metric Learning中的经典:LMNN算法详解
-
随机梯度下降法中的收敛理论
-
SGD, Adagrad, Adam算法的详细比较
-
深入浅出递归神经网络(Recurrent Neural Network)以及应用
-
RNN中的梯度爆炸以及梯度消减,介绍LSTM
-
一小时实现图像中的风格迁移(style transfer)
-
一小时实现语音中的情绪识别(emotion recognition)
-
基于GraphX做分布式图分析
-
图嵌入算法详解以及引用
-
GBDT和XGBoost算法应用以及实现
-
自适应系统所涉及到的技术要点
-
机器学习工程需要必备的数学知识
-
利用目标检测和跟踪算法分析英雄联盟视频
-
一小时教你怎么搭建GPU训练环境
-
一小时用Keras搭建人脸识别系统
-
Google的最新作品BERT模型详解以及实现
-
一小时实现机器自动写代码系统
(持续更新中。。)
李文哲: 美国南加州大学博士,曾任凡普金科(爱钱进)首席科学家,美国亚马逊/高盛高级工程师,AI量化投资公司首席科学家兼投资总监。在AAAI, KDD, AISTATS等顶会上发表过15篇以上论文,其中3篇获得Best Paper Award,累计数百次引用
袁源:美国新泽西理工博士,美国微软和美国亚马逊的资深推荐专家和技术负责人、主导多款核心推荐系统的研发,是人工智能、分布式系统、云计算方面的专家。拥有14年人工智能、推荐系统、自然语言处理、数字图像和视频处理项目经验。在AI会议上发表过20篇以上论文。
蓝振忠:美国卡耐基梅龙大学博士。现任Google科学家,曾任美国智能监控公司的首席科学家, 对视频和多媒体的智能分析有深入研究。他曾代表卡耐基梅隆大学在美国国家标准总局(NIST)举办的视频智能分析大赛中连续多年进入前三。先后在NIPS、CVPR、ICCV、IJCAI、ICDM等国际顶级会议上发表过25篇以上的论文,论文引用次数上千。
史源:美国南加州大学博士,美国AI基金创始人,拥有10多年人工智能领域相关研发和研究经历。卡耐基梅隆大学访问学者,先后在 ICML、AAAI、IJCAI、ICDM等国际顶级会议上发表数篇论文,引用次数高达1000。
周景阳:曾任百度资深工程师,国美和凡普金科的技术负责人。是技术领域、数据分析、知识图谱、视觉等领域的专家。
葛瀚骋:美国Texas A&M大学博士,美国亚马逊Alexa部门资深科学家,负责Alexa的智能化以及个性化的研发与应用,曾任职于美国ebay以及NEC北美实验室。主要的研究涉及到Tensor、社交分析、推荐系统等领域,在KDD、AAAI、SIGIR、RecSys等国际顶级会议上发表15篇以上的论文,数百次的引用。
Q: 如何参与之后的公开课?
扫描下面二维码(或海报)进群
加入免费AI公开课
如遇任何问题,
加greedytech帮你入群。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!