流式计算
从spark 说起,谈谈“流式”计算的理解
spark是一个大数据分布式的计算框架,有一些并行计算的基础会更容易理解分布式计算框架的概念。对比并行计算,谈三个概念:
并行计算
Map Reduce 算子
RDD数据结构
并行计算
spark的任务分为1个driver、多个executor。
吴恩达《机器学习》课程总结(19)总结
(1)涉及到的算法
1.监督学习:线性回归,逻辑回归,神经网络,SVM。
线性回归(下面第三行x0(i)其实是1,可以去掉)
逻辑回归
神经网络(写出前向传播即可,反向框架会自动计算)
SVM
2.非监督学习:聚类算法(K-mean),降维(PCA)
K-mean
PCA
3.异常检测
4.推荐系统
(2)策略
1.偏差与方差,正则化
训练误差减去人类最高水平为偏差(欠拟合),交叉验证集误差减训练误差为方差(过拟合);
正则化解决方差问题,不对θ0正则化;
2.学习曲线
全过程观测偏差与方差,所以更全面。
数据分析研发工程师职业技能和要求
数据分析研发工程师职业技能和要求
工作职责:
1、负责LBS数据分析体系建设
2、负责LBS业务分析平台建设,负责业务数据的提取、查询、处理、分析等工作;
3、负责LBS相关产品日常运营分析、输出相关运营、决策、分析数据
职位要求:
-热爱互联网,对大数据处理和数据分析挖掘有浓厚的兴趣
-熟悉Java、Hadoop、Hive,能够使用Py
mac OS 安装XGBoost(完美解决方案)
XGBoost是一种基于决策树(CART)的分布式的高效的梯度提升算法,它可被应用到分类、回归、排序等任务中,与一般的GBDT算法相比,XGBoost主要有以下几个优点:
对叶节点的权重进行了惩罚,相当于添加了正则项,防止过拟合
XGBoost的目标...
在Ubuntu搭建TensorFlow环境
版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/78987532
在Ubuntu搭建TensorFlow环境
版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。