封神_个人页

封神

文章

问答

259

视频

个人介绍

专注在大数据分布式计算、数据库及存储领域，拥有13+年大数据引擎、数据仓库、宽表引擎、平台研发经验，6年云智能大数据产品技术一号位经验，10年技术团队管理经验；云智能技术架构/云布道师；研发阿里历代的大数据技术产品包括ODPS、DLA、ADB，最近五年主导宽表引擎研发、DLA、ADB湖仓研发；

擅长的技术

Java
数据库
数据仓库
Cloud Native
Serverless
大数据
数据处理
分布式计算
OLAP
NoSQL

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

ACP
- 阿里云数据仓库工程师ACP认证（Alibaba Cloud Certified Professional - Data Warehouse）
  获得于2022-04-12 21:29:49
ACA
- 阿里云云数据库助理工程师认证（ACA）
  获得于2021-04-28 17:30:12

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

提交了问题 2016-06-20

使用OpenAPI创建的集群，创建失败后，在控制台上也删不掉啊？
提交了问题 2016-06-20

EMR dataNode 能ssh上去吗
提交了问题 2016-06-20

阿里云MQS，ONS，MNS，这三个什么区别？
提交了问题 2016-06-17

EMR ODPSSAMPLE 标准案例测试失败，反复测试了多次，还是报错，请阿里同学指导一下
提交了问题 2016-06-08

AttemptID:attempt_1462439785370_0055_m_000001_0 Timed out after 600 secs
提交了问题 2016-06-07

pig作业输出结果如何合并到一个文件中
提交了问题 2016-06-07

E-MapReduce中oss和ossref的区别
提交了问题 2016-06-07

spark streaming接loghub数据的输出格式
提交了问题 2016-06-07

sqoop作业导入报错
提交了问题 2016-06-07

测试LogService，spark Streaming 读取不到数据？
提交了问题 2016-06-07

如果想用CM + CDH在阿里云上搭建一个Hadoop集群，能支持吗?
提交了问题 2016-06-07

原有CDH业务代码是否可以迁移到E-MapReduce上
提交了问题 2016-06-07

E-MapReduce与ODPS的区别
提交了问题 2016-06-07

同时提交很多hive作业，发现作业一直完成不了
提交了问题 2016-06-07

Hbase数据是否可以同步到OSS中
提交了问题 2016-06-06

E-mapreduce 所部署集群的每一台机器，是否是有不同的外网ip地址？
发表了文章 2016-06-05

2016年杭州第四次spark meetup见闻

此次会议有spark2.0、mllib、streaming及CarbonData，内容还是很丰富的。
提交了问题 2016-06-03

在emr使用spark怎么安装numpy呢
提交了问题 2016-06-03

咱们EMR-master上面默认启动的httpd服务可以拿来做别的服务吗？
提交了问题 2016-06-02

ssh到ecs机器经常自动断开
提交了问题 2016-06-01

mapreduce怎么修改一些参数
提交了问题 2016-05-28

E-Mapreduce中SDK里面参数的长度限制是多少？
提交了问题 2016-05-28

从ganglia中看到网络有一段时间是空闲的，日志中对应时间没有日志输出
提交了问题 2016-05-28

用sqoop时，hive创建表的结构一定要和数据库结构一样吗
提交了问题 2016-05-28

hue提交作业等待很长时间
提交了问题 2016-05-27

java.lang.IllegalArgumentException: Wrong FS: oss://id:key@testemr.oss-cn-hangzhou-internal.aliyuncs.com/output5, expected: hdfs://ip:9000
发表了文章 2016-05-23

开源大数据技术社区召集令

Hadoop生态技术已经俨然成为大数据事实标准，为了给广大同学、朋友提供一些交流学习的环境，沉淀大数据技术相关的资料，特别发起此次关注活动。
提交了问题 2016-05-23

你好，我想问问现在的 E MapReduce 服务，支持 shark 吗？
提交了问题 2016-05-20

运行hadoop 程序，hadoop相关的jar包在创建作业的时候需要指定么。还是系统运行时默认会找到某个目录，已经在框架里面了
提交了问题 2016-05-20

您好，请问 E-MapReduce可以执行SQL查询么？
提交了问题 2016-05-20

运行emapreduce，jar的groupId有要求吗？
提交了问题 2016-05-20

emapreduce可以支持交互式运行作业吗？
提交了问题 2016-05-19

emapreduce的集群上能不能帮忙安装一些其他的软件，比如：Presto等
提交了问题 2016-05-18

emapreduce的spark跑在哪里呢？
提交了问题 2016-05-17

Emapreduce访问oss会卡住
发表了文章 2016-05-17

2016年北京中国云计算技术大会见闻

广告有，技术也有。云化是方向，新技术需要很强的把控力；spark还是最火的。
提交了问题 2016-05-12

运行Emapreduce后的结果想导出RDS，怎么整？
提交了问题 2016-05-12

E-MapReduce如何方便的抽取OTS中的数据进行分析？
提交了问题 2016-05-06

e-mapreduce创建按需的集群，可以使用rds作为hive的元数据库吗？
提交了问题 2016-05-06

e-mapreduce可以跑Python脚本么？
提交了问题 2016-04-29

我使用emapreduce hadoop jar依赖的jar怎么上传
提交了问题 2016-04-27

我再使用emapreduce，hive脚本中的变量参数传递
提交了问题 2016-04-26

在使用emapreduce跑mr的时候，输出7个文件，怎么才能输出一个文件呢？
发表了文章 2016-04-24

关于问题查询的见解

维护现有的软件是每个工程师日常工作中不可缺少的工作，也是基本的技能之一。那么当出现故障后，我们该做些啥？怎么去排查问题？正所谓工欲善其事，必先利其器，针对不同的软件环境所需要的工具也不尽相同。在出现故障时怎么才能保持一个清醒的头脑也至关重要，不过这也来源于自信，来源于平时的积累。
发表了文章 2016-04-20

2016年北京hadoop in china见闻

笔者有幸参加了今年在北京主办的hadoop in china，在与会中有不少的感受与大家分享。今年的议题是假设参加会议的同学有一定的基础，没有过多的去介绍基础的内容，比如，没有人说hadoop是啥了，单刀直入，趋势、产品、新技术。大数据改变人类的未来，正在渗透到每个行业中，甚至是人的基因分析。
发表了文章 2016-04-20

2015年上海hadoop in china见闻

市场在发生剧烈的变化，未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革，未来，谁说得好呢？！
发表了文章 2016-04-20

2015年上海hadoop in china见闻

今天过来参加《china hadoop summit》，听了不少的场次。从技术栈上分类，大致为了硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术，主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。
发表了文章 2016-04-20

2013年北京hadoop in china见闻

谈下这次参加中国hadoop技术峰会的收获，两天大约听了20场次，上午的是必听的，下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群，特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表，复杂点可能会涉及到一些机器学习和
发表了文章 2016-04-20

2013年上海QCon全球软件开发者大会见闻

笔者有幸参加了上海的qcon，笔者演讲的主题是《Hadoop2.0应用 – 基于Yarn的淘宝海量数据服务平台》。目前yarn是hadoop的升级版本，yarn比hadoop有着天然的优势，最大的优势就是yarn支持多种计算框架在一个集群内运行，这极大的从存储和计算层面节约了成本。
发表了文章 2016-04-20

2012年杭州QCon全球软件开发者大会见闻

先说下这个和一般的嘉年华的区别，首先这个会议是收费的；再次这个会议老外的分享比较多；最后技术细节讲的并不多，专业性并不太强，如专业性强，海量数据。所以一般适合的人群是，英语听力要可以，希望能在理论方面有一定提高，希望近距离跟大师接触，希望范范了解很多东西。当然都是可以听到一些各个公司介绍其各个技术发

暂无更多信息

发表了文章 2023-05-22

离在线一体化云原生数仓发展思考
发表了文章 2023-05-06

读书笔记《数据密集型应用系统设计》- 数据存储与检索
发表了文章 2023-05-04

读书笔记《数据密集型应用系统设计》- 高可靠性、高可展性、可维护性 & 数据模型与查询语言
发表了文章 2019-06-21

欢迎加盟云智能数据库BigData NoSQL团队
发表了文章 2018-11-27

HBase实战 | HBase在人工智能场景的使用
发表了文章 2018-11-06

HBase多模式
发表了文章 2018-04-17

云HBase集群的规划
发表了文章 2018-03-21

再谈全局网HBase八大应用场景
发表了文章 2017-09-22

学术界关于HBase在物联网/车联网/互联网/金融/高能物理等八大场景的理论研究
发表了文章 2017-09-01

ApsaraDB for HBase - 规格的的选择
发表了文章 2017-08-13

HBase全网最佳学习资料汇总
发表了文章 2017-05-18

HBase Phoenix助力海量数据实时分析
发表了文章 2017-05-17

欢迎加入阿里云 HBase+Spark技术交流群
发表了文章 2017-03-13

云HBase建设之开篇
发表了文章 2017-03-13

云HBase助力物联网建设
发表了文章 2017-02-23

云时代的大数据存储-云HBase
发表了文章 2017-01-19

Hadoop黑客赎金事件解读及防范
发表了文章 2016-12-22

分布式(hadoop)内核研发面试指南
发表了文章 2016-12-01

ROLAP与大数据
发表了文章 2016-10-27

阿里云开源大数据内核团队招聘人才

正在加载, 请稍后...

滑动查看更多

回答了问题 2020-03-22

请问java有必要转大数据吗？

目前大数据基本是用java的。不过java要必要转大数据吗，看起来就不太懂大数据。大数据其实分很多领域：有基础组件、有大数据业务系统、也有机器学习等。就看题目理解的大数据是什么，想做什么。

赞0 踩0 评论0
回答了问题 2020-03-22

能不能使用 Presto 实现 C* 的表关联？

可以参考使用阿里云的数据湖分析服务：https://www.aliyun.com/product/datalakeanalytics

赞0 踩0 评论0
回答了问题 2020-03-22

RDS如何做大数据分析

可以参考使用阿里云数据湖分析服务DLA

具体参考：https://help.aliyun.com/document_detail/129965.html?spm=a2c4g.11186623.6.592.1cf6d4fbVj5JL0

赞0 踩0 评论0
回答了问题 2020-03-22

如何进行探索性数据分析(EDA)？

可以使用阿里云数据湖分析服务DLA来做探索性的分析。

赞0 踩0 评论0
回答了问题 2020-03-22

重置了 dla 的主用户密码, 用 mysql client 连接不了数据库, 这个怎么处理?

这个账号没有权限的，文中有一些提示的。

赞0 踩0 评论0
回答了问题 2020-03-22

针对高校大数据解决方案有哪些？

hadoop 还是过于复杂，可以考虑阿里云数据湖分析服务DLA。大数据的能力、数据库的体验。

赞0 踩0 评论0
回答了问题 2020-03-22

你眼里的大数据是什么？

未来的大数据一定的按需付费Serverless化的。当前很多项目的大数据的实施成本过高。

赞0 踩0 评论0
回答了问题 2020-03-22

您有大数据相关经验吗？如果有，请分享一下。

最近几年业内分享大数据的技术与案例比较多，不过大数据发展还是比较快的。从10年前的google三篇论文，到最近的很火的Serverless的数据湖分析服务，发展还是相当快的。

赞0 踩0 评论0
回答了问题 2020-03-22

大数据和python有什么区别

核心在于科学家及分析师需要一种简单实用的语言，而Python比较合适，或者Python后续的设计就倾向于此。

赞0 踩0 评论0
回答了问题 2020-03-22

Apache spark如何在数据湖中更新海量原始数据？

hudi的出现确实为了解决类似的问题

赞0 踩0 评论0
回答了问题 2020-03-22

为什么Hadoop可用于大数据分析？

哲学的回答：因为hadoop设计就是为了解决大数据分析问题，如果不能解决就没有hadoop 实际的原因：hadoop核心分为3个层次：存储hdfs、计算mr&tez、调度yarn 不过最近随着社区及云的发展，慢慢演变为：存储HDFS换成了S3或者OSS，调度Yarn换成了k8s，再计算引擎百花齐放，比如spark、比如各家云产商提供的数据湖分析服务，bigquery，阿里云数据湖分析dla等。

赞0 踩0 评论0
回答了问题 2020-03-22

Flink相比Spark Streaming有什么区别？

简单讲：flink是实时流，Spark Streaming是用批模拟流。

赞0 踩0 评论0
回答了问题 2020-03-22

Spark 的提交方式？

还有一种主流的方式，是直接提交到k8s

赞0 踩0 评论0
回答了问题 2020-03-22

如何排查伸缩活动异常？

一般需要有监控的服务，设定一定的预期，后续检测是否符合预期。

一般情况下，弹性伸缩都有一定的度，比如min ~ max ，如果不在此区间视为异常。

赞0 踩0 评论0
回答了问题 2020-03-22

如何使用数据湖分析DLA分析JSON的数据？

可以参考：https://help.aliyun.com/document_detail/109858.html?spm=a2c4g.11186623.6.626.13cf7aaebUvMd1

赞0 踩0 评论0
提交了问题 2020-03-22

如何使用数据湖分析DLA分析JSON的数据？
回答了问题 2020-03-22

serverless云数据库如何调用

阿里云有一款数据湖分析DLA：https://www.aliyun.com/product/datalakeanalytics 是Serverless的数据湖分析服务可以了解下

赞0 踩0 评论0
回答了问题 2020-03-22

什么是云计算?什么是大数据?二者有何联系?

云计算与大数据在网上单独讲的挺多的，可以看看。我讲下我的理解：从业务层面看：云计算与大数据是两个业务，在公司很小，业务量很小的时候。往往是没有大数据的。在ecs上买几个机器就可以解决问题。当数据量多了以后，慢慢会有云计算的技术。从技术层面看：云计算往往是IAAS层的，大数据一般是在PAAS层，PAAS层使用IAAS的技术。不过有一些大数据到业务层面，就直接到SAAS层了。

今天 AI大数据云计算是非常能代表未来的词汇，所以就用这个这些词汇了。假以时日，可能会出现其他的此。

赞0 踩0 评论0
回答了问题 2020-03-22

弹性伸缩如何事件通知？

一般是调度程序在添加服务器时，主动推送一个消息到MQ。另外一种是主动轮询，一般效率相对低一点。不过如果不敏感的业务，其实也是可以解决问题的。

赞0 踩0 评论0
回答了问题 2020-03-22

为什么RDS那么贵？

RDS是多种规格的，在一般的mysql的基础之上提供了很多好用的功能。 - 保障性能与稳定性肯定是必要的 - 提供HA切换机制，很多是2台起步的 - 支持性能分析 - 提供数据备份的机制 - 支持跟数据湖分析DLA一起联合分析等等

赞0 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

封神_个人页

个人介绍

擅长的技术

使用OpenAPI创建的集群，创建失败后，在控制台上也删不掉啊？

EMR dataNode 能ssh上去吗

阿里云MQS，ONS，MNS，这三个什么区别？

EMR ODPSSAMPLE 标准案例测试 失败 ，反复测试了多次，还是报错，请阿里同学指导一下

AttemptID:attempt_1462439785370_0055_m_000001_0 Timed out after 600 secs

pig作业输出结果如何合并到一个文件中

E-MapReduce中oss和ossref的区别

spark streaming接loghub数据的输出格式

sqoop作业导入报错

测试LogService，spark Streaming 读取不到数据？

如果想用CM + CDH在阿里云上搭建一个Hadoop集群，能支持吗?

原有CDH业务代码是否可以迁移到E-MapReduce上

E-MapReduce与ODPS的区别

同时提交很多hive作业，发现作业一直完成不了

Hbase数据是否可以同步到OSS中

E-mapreduce 所部署集群的每一台机器，是否是有不同的外网ip地址？

2016年杭州第四次spark meetup见闻

在emr使用spark怎么安装numpy呢

咱们EMR-master上面默认启动的httpd服务可以拿来做别的服务吗？

ssh到ecs机器经常自动断开

mapreduce怎么修改一些参数

E-Mapreduce中SDK里面参数的长度限制是多少？

从ganglia中看到网络有一段时间是空闲的，日志中对应时间没有日志输出

用sqoop时，hive创建表的结构一定要和数据库结构一样吗

hue提交作业等待很长时间

java.lang.IllegalArgumentException: Wrong FS: oss://id:key@testemr.oss-cn-hangzhou-internal.aliyuncs.com/output5, expected: hdfs://ip:9000

开源大数据技术社区召集令

你好，我想问问现在 的 E MapReduce 服务，支持 shark 吗？

运行hadoop 程序，hadoop相关的jar包在创建作业的时候需要指定么。还是系统运行时默认会找到某个目录，已经在框架里面了

您好，请问 E-MapReduce可以执行SQL查询么？

运行emapreduce，jar的groupId有要求吗？

emapreduce可以支持交互式运行作业吗？

emapreduce的集群上能不能帮忙安装一些其他的软件，比如：Presto等

emapreduce的spark跑在哪里呢？

Emapreduce访问oss会卡住

2016年北京中国云计算技术大会见闻

运行Emapreduce后的结果想导出RDS，怎么整？

E-MapReduce如何方便的抽取OTS中的数据进行分析？

e-mapreduce创建按需的集群，可以使用rds作为hive的元数据库吗？

e-mapreduce可以跑Python脚本么？

我使用emapreduce hadoop jar依赖的jar怎么上传

我再使用emapreduce，hive脚本中的变量参数传递

在使用emapreduce跑mr的时候，输出7个文件，怎么才能输出一个文件呢？

关于问题查询的见解

2016年北京hadoop in china见闻

2015年上海hadoop in china见闻

2015年上海hadoop in china见闻

2013年北京hadoop in china见闻

2013年上海QCon全球软件开发者大会见闻

2012年杭州QCon全球软件开发者大会见闻

离在线一体化云原生数仓发展思考

读书笔记《数据密集型应用系统设计》- 数据存储与检索

读书笔记《数据密集型应用系统设计》- 高可靠性、高可展性、可维护性 & 数据模型与查询语言

欢迎加盟云智能数据库BigData NoSQL团队

HBase实战 | HBase在人工智能场景的使用

HBase多模式

云HBase集群的规划

再谈全局网HBase八大应用场景

学术界关于HBase在物联网/车联网/互联网/金融/高能物理等八大场景的理论研究

ApsaraDB for HBase - 规格的的选择

HBase全网最佳学习资料汇总

HBase Phoenix助力海量数据实时分析

欢迎加入阿里云 HBase+Spark技术交流群

云HBase建设之开篇

云HBase助力物联网建设

云时代的大数据存储-云HBase

Hadoop黑客赎金事件解读及防范

分布式(hadoop)内核研发面试指南

ROLAP与大数据

阿里云开源大数据内核团队招聘人才

请问java有必要转大数据吗？

能不能使用 Presto 实现 C* 的表关联？

RDS如何做大数据分析

如何进行探索性数据分析(EDA)？

重置了 dla 的主用户密码, 用 mysql client 连接不了数据库, 这个怎么处理?

针对高校大数据解决方案有哪些？

你眼里的大数据是什么？

EMR ODPSSAMPLE 标准案例测试失败，反复测试了多次，还是报错，请阿里同学指导一下

你好，我想问问现在的 E MapReduce 服务，支持 shark 吗？