开源大数据周刊-第9期

简介: 云上Hadoop之挑战

阿里云E-Mapreduce动态

E-Mapreduce团队
1.3.2版本(已经发布):

  • Master HA功能

1.3.3版本 (即将发布)

  • 商业化

1.4版本(正在研发):

  • 用户执行计划及集群运行状态自定义报警
  • 集群整体运行情况的仪表盘
  • 集群的一些专家建议,例如:扩容提醒
  • 集群一键重启

资讯

菜鸟“闹”江湖:物流+大数据,能把广东、江苏GDP都节省出来?
中国物流去向何方?菜鸟网络认为,通过推动物流业向智慧转型,未来目标是要把中国社会物流总成本占GDP的比重降低到5%,这将是物流新模式对社会的重大贡献,相当于每年可以节省出广东省和江苏省的GDP总和

大数据,未来已来
前日,在成都的一次大数据会上,各位顶级专家都不约而同地提到了大数据还远未成熟的观点。我也很赞同这个观点,大数据在今天,依然属于前沿科学,它在很多行业和细分领域,都还很不成熟。然而,这并不代表我们还要再徘徊等待,无所作为。相反,在一些细分领域,在一些特定的“点”,我已经看到了星星之火。与我所经历过的其他新兴市场并无不同。我坚信,这些星星之火必将燎原!2016,大数据,未来已来。

世界顶尖数据科学家看未来十年大数据发展
过去,科学家经过十年的研究才首次破解人类DNA。而13年后的今天,这项工作在24小时之内就能完成。
一直以来,我们都在不断改进数据处理工具。数据数量也在过去十年间爆炸式增长。那么,还有创新的空间吗?未来还会给我们新颖的启示,还会令人瞠目吗?在这一点上,我们无须再猜。让我们来看看,数据科学界的顶尖大师们是如何看待未来十年大数据发展的,他们又对大数据未来如何改变世界作何猜想。

大数据与统计新思维
毫无疑问,大数据时代已经来临,它正在悄悄地改变着人们的行为与思维,难以阻挡,无法抗拒。在计算机科学、电子商务等领域已率先在大数据技术开发与应用方面做出不俗成就的时候,以数据为研究对象的统计学该如何应对? 无动于衷还是盲目追从? 正确的态度应该是理性对待、积极跟进、改变思维、谋求发展.

云上Hadoop之挑战
在云上云行Hadoop,很多人担心性能。因为一提到虚拟化就会有人想到有成本,往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差。如果单独把10台物理机虚拟化跑Hadoop,这肯定是有部分性能的开销的。但是如果在公共云上,情况就不是这样了。因为公共云虚拟化的开销最终是由平台方来承担的,其一是平台方采购机器有规模优势,其二平台方可以在保证虚拟机性能的情况超卖部分资源。

Spark性能优化指南——高级篇
深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。

Sqoop-1.4.6 导入实战
Sqoop是Hadoop与其他关系型数据库之间进行数据抽取、转换的一座坚固的桥梁,可以在关系型数据库以及Hadoop生态系统支持的数据存储方式(HDFS、Hive、HBase)之间进行导入和导出操作。

Apache Pig 0.16.0
时隔一年,pig再此发布,这个版本支持pig on tez

国内大数据相关会议

| 会议 | 地点 | 时间 | 费用 |
| --- | --- | --- | --- |
| 2016厦门云栖大会 | 上海 | 2016年06月15日 | 免费|
| 2016上海china Hadoop Summit | 上海 | 2016年07月29日-2016年07月30日 | 收费 |
| Strata + Hadoop World | 北京 | 2016年8月04- 2016年8月06日 | 收费 |

版权声明

信息都是来自互联网,都给出了原文的链接,如果侵权,请联系我们,我们负责删除。
阿里云E-Mapreduce团队 出品

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8天前
|
存储 SQL 分布式计算
开源大数据比对平台设计与实践—dataCompare
开源大数据比对平台设计与实践—dataCompare
85 0
|
8天前
|
SQL 大数据 关系型数据库
开源大数据比对平台(dataCompare)新版本发布
开源大数据比对平台(dataCompare)新版本发布
97 0
|
8天前
|
SQL 存储 分布式计算
从0到1介绍一下开源大数据比对平台dataCompare
从0到1介绍一下开源大数据比对平台dataCompare
158 0
|
8天前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
|
6月前
|
人工智能 分布式计算 大数据
开源大数据平台 3.0 技术解读
阿里云研究员,阿里云计算平台事业部开源大数据平台负责人王峰围绕新一代的流式湖仓、全面 Serverless 化、更智能的开源大数据等多维度解读开源大数据平台 3.0~
1036 1
开源大数据平台 3.0 技术解读
|
6月前
|
分布式计算 大数据 Hadoop
开源大数据方案有哪些
开源大数据方案有哪些
108 0
|
8天前
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
68 4
|
8天前
|
SQL 存储 大数据
从0到1介绍一下开源大数据服务平台dataService
从0到1介绍一下开源大数据服务平台dataService
131 1
|
8天前
|
大数据 Linux KVM
【云计算与大数据技术】虚拟化技术、开源技术Xen、KVM、OpenVZ的讲解(图文解释 超详细)
【云计算与大数据技术】虚拟化技术、开源技术Xen、KVM、OpenVZ的讲解(图文解释 超详细)
116 0
|
5月前
|
存储 人工智能 大数据
2023云栖陈守元,阿里云开源大数据产品年度发布
阿里云计算平台事业部开源大数据产品总监陈守元围绕EMR、Flink Streaming Lakehouse、 Elasticsearch、Milvus等产品发布展开分享介绍。
313 2