佰腾科技的专利大数据的云上裂变之路
在票选最美云上大数据暨大数据技术峰会上,来自江苏佰腾科技有限公司的许鹏通过介绍佰腾专利大数据平台的演化、上云前后的平台结构和任务处理流程,为大家分享了专利大数据的云上裂变之路,解释了非专业人士也能进行专利信息的检索与统计,即专利信息的大众化。
Spark性能优化
Spark的性能分析和调优很有意思,今天再写一篇。主要话题是shuffle,当然也牵涉一些其他代码上的小把戏。
以前写过一篇文章,比较了几种不同场景的性能优化,包括portal的性能优化,web service的性能优化,还有Spark job的性能优化。Spark的性能优化有一些特殊的地方,比如
阿里云服务器实例规格族配置怎么选?
很多用户在购买阿里云服务器的时候纠结于实例规则到底应该怎么选?下面针对目前阿里云的所有实例规则族做个介绍,包括适用场景,CPU类型,CPU内存比,最大内网带宽,最大网络收发包能力等基本参数。
目前阿里云实例规格采用的架构有:x86计算,异构计算GPU/FPGA,弹性裸金属服务器,超级计算集群。
Spark机器学习5·回归模型(pyspark)
![](http://img3.douban.com/lpic/s28277325.jpg)
[Spark机器学习](http://book.douban.com/subject/26593179/)
- 分类模型的预测目标是:类别编号
- 回归模型的预测目标是:实数变量
回归模型种...