阿里、Databricks、Intel的十位专家和你细聊Hadoop技术实践及生态

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 2016杭州云栖大会开源大数据专场不仅聚集阿里Hadoop、Spark、Hbase、JStorm各领域的技术专家,还邀请到了Databricks、Intel等公司的技术专家来讲述阿里在Hadoop大生态领域的实践与探索、Hadoop生态的技术细节以及一些应用实践。

中国云计算产业最具影响力的盛会之一——2016杭州云栖大会(https://yunqi.aliyun.com/)将在云栖小镇召开。连续举办七届的云栖大会一直是业界了解阿里云计算生态发展和应用趋势、体验前沿技术和产品的最佳平台,来自海内外的上万名开发者、创业者聚集于此,分享着他们对云计算的思考与实践经验。7年来,从产品发布到行业解决方案展示,从关注技术到技术与服务并重,从单一的客户到生态全景的展现,大会的核心内容一直在“进化”,而2016年杭州云栖大会,则以“飞天・进化”为主题。飞天是整个阿里云的核心技术部分,是阿里云产品服务的基石,从2009年写下飞天第一行代码,到成为阿里巴巴所有核心业务数据处理的平台,从为国内中小创新企业、政府机构提供计算和数据处理能力,到触角加速延伸覆盖服务于全球200多个国家和地区……历经7载,飞天已进化成为世界级计算服务平台。本次大会,内容规模将比去年翻倍,从原本2天的议程增加至4天,从10月13日持续到16日,届时将有超过400场主题演讲、数万平米创新展览体验区和国内外顶尖科技亮相,而阿里巴巴集团董事局主席马云也将参加大会并发言。

 

为了让大家更为深入地了解云栖大会的日程设置,云栖社区对20+位分论坛出品人进行了系列采访。

 

本期采访嘉宾—— 阿里云高级技术专家夏俊鸾 (亦龙)、阿里云技术专家曹龙(封神) ,开源大数据专场出品人

夏俊鸾 (亦龙),阿里云高级技术专家,专注在大数据、分布式系统领域,有多年的性能调优及开源大数据技术研发经验,Apache Spark Committer,目前为E-MapReduce产品技术负责人。

曹龙(封神),阿里云技术专家,专注在大数据、分布式系统领域,7年分布式引擎研发经验;先后研发上万台Hadoop、ODPS集群;先后负责阿里YARN、Spark及自主研发内存计算引擎;目前为广大公共云用户提供专业的Hadoop服务。

 

技术实践及Hadoop生态技术探究

谈到对于出品开源大数据专场的内容策划初衷,在两位出品人看来:阿里在09年就开始尝试使用Hadoop技术,先后包括Hadoop、Spark、Hbase及Jtorm。这些技术在不同的业务线广泛使用,推动阿里业务的发展。本次专场不仅聚集阿里Hadoop、Spark、Hbase、Jtorm各领域的技术专家,共同为大家讲述Hadoop生态的过去现在未来及阿里在Hadoop大生态领域的实践与探索,希望能给开源大数据的从业者和爱好者带来帮助。同时,本次专场还邀请到了Databricks、Intel等公司的技术专家来讲述Hadoop生态的技术细节以及一些应用实践,包括Spark Catalyst 拆解、HDFS重要特性分析、流式计算领域引擎测评等,让与会者们真正地学习到先进企业中的先进技术。

此外,在本次专场中,还将举办开源大数据技术组成立仪式,欢迎大家关注。

  

重磅:演讲嘉宾与策划的演讲话题

开源大数据专场的日程和讲师围绕“技术实践及Hadoop生态技术探究”这一主题来设计和规划,从议程看来,该专场上午场主要是来自阿里Hadoop、Spark、Hbase、Jtorm各领域的技术专家讲述Hadoop生态的过去、现在、未来及阿里在Hadoop大生态领域的实践与探索;下午场主要由来自Databricks、Intel、逸晗网络等企业的专家讲述Hadoop生态的技术细节及一些应用实践,所涉及内容包括Spark Catalyst拆解、详解HDFS最近一两年的重要特性和存储的发展趋势、Hadoop计算与存储分离的原理及细节介绍、围绕阿里云E-MapReduce平台的最佳实践以及流式计算领域引擎Spark Streaming Storm、Flink、Gearpump等各引擎的评测。

 

此次开源大数据专场,邀请到的重量级演讲嘉宾与策划的演讲话题分别是:

  • 讲师:无谓/阿里云高级技术专家
  • 个人简介:主要研究领域包括大数据、分布式系统和搜索引擎等,是国内较早接触Hadoop的开发人员,曾经参加过Hadoop社区官方中文文档翻译工作,对Hadoop MapReduce、HDFS、Hive、Spark等都有深入的研究。2008年加入阿里集团,先后在中国雅虎、B2B、阿里云工作,一直从事分布式计算相关研发的工作。参与过阿里内部自主研发的分布式平台的开发,带领过分布式编程模型、稳定性、数据分析和性能调优等团队。在开源大数据领域,作为主要开发和运维人员经历了阿里内部共享Hadoop集群的上线和发展壮大,作为Hadoop对内服务平台的主要负责人完成对Hadoop调度、权限和跨机房集群部署等系统的改造工作。
  • 议题:Hadoop过去现在未来:从阿里云梯到E-MapReduce
  • 内容简介:
  1. 云计算和大数据时代背景介绍,云和数据的融合是趋势;
  2. Hadoop生态圈10年发展历程(2006-2016),从MapReduce+HDFS到HBase、Hive、Spark、Yarn、Flink全生态,HDFS和Yarn成为基础设施,各种计算模型和存储模型百花齐放;离线平台到实时和在线平台,Spark和Flink成为业界的热点,机器学习算法也是另外的热点;
  3. Hadoop应用范围的扩展,从搜索业务和BI报表类业务,扩展到金融、医疗领域;阿里云梯集群的发展历程(2008-2015),内部专有服务。集群管理、分布式调度、超过1万台扩展性、跨机房部署;
  4. 云上E-MapReduce发展现状(2015-现在),集群管理、监控报警、作业调度等。近期工作方向有Hadoop性能分析、Hadoop BI工具整合、专家服务;
  5. 未来云上Hadoop发展展望(Hadoop-as-a-Service)。

  • 讲师:郑锴/ HDFS Committer Intel 研发经理
  • 个人简介:Intel亚太研发中心工作,担任大数据部门研发经理。作为Apache开源社区积极贡献者和爱好者,是Apache Hadoop committer, Apache Directory PMC member and Apache Kerby 发起者。毕业于四川大学,近十年互联网和分布式系统开发经验,最近几年从事大数据研发和优化,专注在大数据安全、分布式存储和实时流处理等领域。
  • 议题:HDFS下一步新思考:在支持了纠删码(Erasure Coding)之后
  • 内容简介:首先回顾最近一两年Hadoop社区对HDFS 纠删码的支持,介绍EC对用户的价值,适用场景和部署建议。然后重点思考Hadoop社区在HDFS上面接下来会怎么走,介绍当前在做的几个重要特性,探讨大数据存储的发展趋势,同时也希望跟用户有效互动得到更多反馈。
  • 讲师:范文臣 / Apache Spark Committer
  • 个人简介Apache Spark Committer, Spark SQL 开发团队的一员。2013年从浙江大学毕业后,一直在进行分布式系统相关的工作。2014年开始接触 Spark,并成为最活跃的代码贡献者之一。2015年正式加入 Databricks,目前在杭州以远程协作的模式参与 Spark,主要是 SQL 模块的开发。
  • 议题:Deep dive into catalyst
  • 内容简介:Catalyst 是Apache Spark 最重要的模块之一。Spark中的核心API,从 DataFrame、 Dataset到Structural Streaming,大部分都以Catalyst作为基石。Catalyst实质上是一个遍历和操作树的通用库,在此基础上,我们为 Spark 构建了一个组合式的编译器前端,包括查询分析器、优化器和执行规划器。本次演讲会从Catalyst的基本概念开始,深入讲解Catalyst 提供了哪些主要特性来支持Spark的API抽象。

 

干货满满的开源大数据专场日程如下,快速报名!


85a78dc14ec1303dd8f47e8e7b1086490fc81cc7

 专场直达链接:https://m.aliyun.com/yq/hangzhou2016/scheduledetail66


459e64891edf7dc0ffd6e77f2f1e69f43b4db423


专场直达链接:https://m.aliyun.com/yq/hangzhou2016/scheduledetail69


去年大会距会议开始还有10天,报名就超额导致了提前结束报名,今年大会时下最热的技术分享都已涵盖其中,报名态势十分火爆,极速抢座吧:

抢票入口:https://yunqi.aliyun.com/2016/hangzhou/baoming

大会日程:https://yunqi.aliyun.com/2016/hangzhou/schedule

大会官网:https://yunqi.aliyun.com/


2016杭州云栖大会出品人系列文章:

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
5月前
|
人工智能 Linux 云计算
|
存储 分布式计算 Hadoop
基于docker的Hadoop环境搭建与应用实践(脚本部署)
本文介绍了Hadoop环境的搭建与应用实践。对Hadoop的概念和原理进行了简要说明,包括HDFS分布式文件系统和MapReduce计算模型等,主要通过脚本的方式进行快捷部署,在部署完成后对HDFS和mapreduce进行了测试,确保其功能正常。
|
2月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
73 1
|
3月前
|
分布式计算 运维 大数据
混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践。
除了资源效率和成本的优势外,混合云模式还为斗鱼带来了可量化的成本、增值服务以及额外的专业服务。阿里云的专业团队可以为斗鱼提供技术咨询和解决方案,帮助斗鱼解决业务难题。此外,计算资源的可量化也使得斗鱼能够清晰地了解资源使用情况,为业务决策提供依据。
|
4月前
|
分布式计算 Hadoop Java
优化大数据处理:Java与Hadoop生态系统集成
优化大数据处理:Java与Hadoop生态系统集成
|
3月前
|
分布式计算 Hadoop 大数据
优化大数据处理:Java与Hadoop生态系统集成
优化大数据处理:Java与Hadoop生态系统集成
|
5月前
|
存储 分布式计算 资源调度
Hadoop生态系统集成问题
【5月更文挑战第6天】
44 1
|
5月前
|
分布式计算 数据可视化 Hadoop
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
|
5月前
|
SQL 存储 分布式计算
Hadoop生态各个组件的关系
Hadoop生态各个组件的关系
55 0
|
资源调度 分布式计算 安全
​Hadoop Yarn 在小米的实践(2)
​Hadoop Yarn 在小米的实践
342 0
​Hadoop Yarn 在小米的实践(2)

热门文章

最新文章