分布式计算

首页 标签 分布式计算
# 分布式计算 #
关注
37628内容
阿里云大数据利器之-使用flume+sql实现流计算做实时展现业务(归档Maxcompute)
实时业务处理的需求越来越多,也有各种处理方案,比如storm,spark等都可以。那以数据流的方向可以总结成数据源-数据搜集-缓存队列-实时处理计算-数据展现。本文就用阿里云产品简单实现了一个实时处理的方案。
佰腾科技的专利大数据的云上裂变之路
在票选最美云上大数据暨大数据技术峰会上,来自江苏佰腾科技有限公司的许鹏通过介绍佰腾专利大数据平台的演化、上云前后的平台结构和任务处理流程,为大家分享了专利大数据的云上裂变之路,解释了非专业人士也能进行专利信息的检索与统计,即专利信息的大众化。
Spark修炼之道(基础篇)——Linux大数据开发基础:第一节、Linux介绍、安装及使用初步
本节主要内容 Linux简史 Linux系统整体介绍 Ubuntu Linux安装 Linux使用初步 1. Linux简史 要讲述大名鼎鼎的Linux,必然要先从UNIX系统谈起,下面这幅图给出了Unix系统的进化图: 图片来源:http://baike.baidu.com/link?url=QfoqWtWGs-BjpnfEy_AUk7Bm3XHuf6JbN92H
Spark性能优化
Spark的性能分析和调优很有意思,今天再写一篇。主要话题是shuffle,当然也牵涉一些其他代码上的小把戏。 以前写过一篇文章,比较了几种不同场景的性能优化,包括portal的性能优化,web service的性能优化,还有Spark job的性能优化。Spark的性能优化有一些特殊的地方,比如
MaxCompute UDF系列之身份证校验及15位身份证号码转换成18位
为了验证一些老证件上的身份证号码到底是不是本人,今天为大家提供一个15位身份证号码转换成18位的MaxCompute的UDF,下载地址见附件。 效果如下: MaxCompute UDF代码如下: /*** * 身份证号码构成:6位地址编码+8位生日+3位顺序码
阿里云服务器实例规格族配置怎么选?
很多用户在购买阿里云服务器的时候纠结于实例规则到底应该怎么选?下面针对目前阿里云的所有实例规则族做个介绍,包括适用场景,CPU类型,CPU内存比,最大内网带宽,最大网络收发包能力等基本参数。 目前阿里云实例规格采用的架构有:x86计算,异构计算GPU/FPGA,弹性裸金属服务器,超级计算集群。
离线数据同步神器:DataX,支持几乎所有异构数据源的离线同步到MaxCompute
概述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
MaxCompute助力ofo实现精细化运营:日订单超3200万、整体运行效率提升76%
摘要:ofo小黄车大数据BI系统负责人龙利民为大家分享了ofo的上云体验,重点分享了MaxCompute的应用实践,最后对阿里云提出了自己的建议需求。 关于ofo小黄车 共享经济不仅与技术相关,它还关乎人类共同命运,关乎可持续发展。
Spark机器学习5·回归模型(pyspark)
![](http://img3.douban.com/lpic/s28277325.jpg) [Spark机器学习](http://book.douban.com/subject/26593179/) - 分类模型的预测目标是:类别编号 - 回归模型的预测目标是:实数变量 回归模型种...
免费试用