专访阿里云高级技术专家吴威:Kafka、Spark和Flink类支持流式计算的软件会越来越流行

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据领域一定会朝着更加实时、更加智能、数据更加多样化的方向前进。Kafka、Spark和Flink之类的支持流式计算的软件会越来越流行,同时各类机器学习平台和工具也会越来越成熟。
813e770cef1b5663fc7fe49c26f4980dcc255ee3

杭州·云栖大会将于2016年10月13-16日在云栖小镇举办,在这场标签为互联网、创新、创业的云计算盛宴上,众多行业精英都将在这几天里分享超过450个演讲主题。

为了帮助大家进一步了解这场全球前言技术共振盛会的内容,云栖社区采访了各个论坛的大咖,以飨读者。

以下为正文:

32967afc36b9618da5a130c99c183c14aa5bf200

吴威,阿里云高级技术专家。E-MapReduce产品是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务,他在其中参与产品设计讨论、平台性能调优等工作,并为用户提供技术支持。


吴威表示,对于开源大数据产品的尝试和实践分很多阶段,从刚开始利用开源产品解决问题,到每天日常使用成为工作流程的一部分。过程中可能会遇到Hadoop集群的各种问题,包括硬件故障、集群容量不足、新版本升级和使用、运维自动化策略等等。

一般把Hadoop或Spark等开源技术用的比较好的公司都需要配备一支强有力的运维团队,“阿里的经验是由一支专业的队伍负责底层Hadoop平台的建设,包括数据存储、资源调度和通用数据工具开发,在平台上面可以长出各种类型的数据业务,数据开发人员和分析师无需关注大数据平台底层的实现细节,两方面分工协作,让数据创造真正的价值。阿里云对外开放的E-MapReduce服务也秉承同样的理念,为外部用户提供稳定好用的大数据服务。”

在本次云栖大会上,吴威将给大家分享开源Hadoop平台10年来的发展历程以及他的一些看法。他说:“阿里是开源技术的重度使用者和参与者,从2008年就开始使用Hadoop技术,并在内部搭建了上千台规模的集群,在过程中遇到并解决了很多问题,我会简单回顾一下。最后,阿里云希望能把我们在Hadoop和Spark等开源大数据平台上的积累通过服务的方式提供给公众,我也会分享一下我们是怎么考虑的。”

之所以分享这个话题,吴威称,初衷是为了和外部的大数据用户做一些交流,互通有无,也希望让大家感受到阿里对开源大数据社区的诚意。

对于这个领域的未来,吴威指出大数据领域一定会朝着更加实时、更加智能、数据更加多样化的方向前进。Kafka、Spark和Flink之类的支持流式计算的软件会越来越流行,同时各类机器学习平台和工具也会越来越成熟。
目录
相关文章
|
1月前
|
分布式计算 数据处理 Apache
Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
【10月更文挑战第10天】Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
165 1
|
18天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
53 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
1月前
|
消息中间件 关系型数据库 MySQL
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
135 0
|
18天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
19天前
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
48 1
|
2月前
|
SQL 分布式计算 Serverless
阿里云 EMR Serverless Spark 版正式开启商业化
阿里云 EMR Serverless Spark 版正式开启商业化,内置 Fusion Engine,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供 Notebook 及 SQL 开发、调试、发布、调度、监控诊断等一站式数据开发体验!
148 3
阿里云 EMR Serverless Spark 版正式开启商业化
|
1月前
|
消息中间件 Java Kafka
Flink-07 Flink Java 3分钟上手 滚动窗口 事件驱动 Kafka TumblingWindow GlobalWindow CountWindow
Flink-07 Flink Java 3分钟上手 滚动窗口 事件驱动 Kafka TumblingWindow GlobalWindow CountWindow
37 7
|
1月前
|
消息中间件 NoSQL Kafka
Flink-10 Flink Java 3分钟上手 Docker容器化部署 JobManager TaskManager Kafka Redis Dockerfile docker-compose
Flink-10 Flink Java 3分钟上手 Docker容器化部署 JobManager TaskManager Kafka Redis Dockerfile docker-compose
39 4
|
1月前
|
消息中间件 Java Kafka
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
47 1
|
1月前
|
消息中间件 NoSQL Kafka
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
131 0