专注在大数据分布式计算、数据库及存储领域,拥有13+年大数据引擎、数据仓库、宽表引擎、平台研发经验,6年云智能大数据产品技术一号位经验,10年技术团队管理经验;云智能技术架构/云布道师; 研发阿里历代的大数据技术产品包括ODPS、DLA、ADB,最近五年主导宽表引擎研发、DLA、ADB湖仓研发;
暂时未有相关通用技术能力~
阿里云技能认证
详细说明此次会议有spark2.0、mllib、streaming及CarbonData,内容还是很丰富的。
Hadoop生态技术已经俨然成为大数据事实标准,为了给广大同学、朋友提供一些交流学习的环境,沉淀大数据技术相关的资料,特别发起此次关注活动。
广告有,技术也有。云化是方向,新技术需要很强的把控力;spark还是最火的。
维护现有的软件是每个工程师日常工作中不可缺少的工作,也是基本的技能之一。那么当出现故障后,我们该做些啥?怎么去排查问题?正所谓工欲善其事,必先利其器,针对不同的软件环境所需要的工具也不尽相同。在出现故障时怎么才能保持一个清醒的头脑也至关重要,不过这也来源于自信,来源于平时的积累。
笔者有幸参加了今年在北京主办的hadoop in china,在与会中有不少的感受与大家分享。今年的议题是假设参加会议的同学有一定的基础,没有过多的去介绍基础的内容,比如,没有人说hadoop是啥了,单刀直入,趋势、产品、新技术。大数据改变人类的未来,正在渗透到每个行业中,甚至是人的基因分析。
市场在发生剧烈的变化,未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革,未来,谁说得好呢?!
今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。
谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和
笔者有幸参加了上海的qcon,笔者演讲的主题是《Hadoop2.0应用 – 基于Yarn的淘宝海量数据服务平台》。目前yarn是hadoop的升级版本,yarn比hadoop有着天然的优势,最大的优势就是yarn支持多种计算框架在一个集群内运行,这极大的从存储和计算层面节约了成本。
先说下这个和一般的嘉年华的区别,首先这个会议是收费的;再次这个会议老外的分享比较多;最后技术细节讲的并不多,专业性并不太强,如专业性强,海量数据。所以一般适合的人群是,英语听力要可以,希望能在理论方面有一定提高,希望近距离跟大师接触,希望范范了解很多东西。当然都是可以听到一些各个公司介绍其各个技术发
目前大数据基本是用java的。不过java要必要转大数据吗,看起来就不太懂大数据。 大数据其实分很多领域:有基础组件、有大数据业务系统、也有机器学习等。 就看题目理解的大数据是什么,想做什么。
可以参考使用阿里云的数据湖分析服务:https://www.aliyun.com/product/datalakeanalytics
可以参考使用阿里云数据湖分析服务DLA
具体参考:https://help.aliyun.com/document_detail/129965.html?spm=a2c4g.11186623.6.592.1cf6d4fbVj5JL0
可以使用阿里云数据湖分析服务DLA来做探索性的分析。
这个账号没有权限的,文中有一些提示的。
hadoop 还是过于复杂,可以考虑 阿里云数据湖分析服务DLA。大数据的能力、数据库的体验。
未来的大数据一定的按需付费Serverless化的。当前很多项目的大数据的实施成本过高。
最近几年业内分享大数据的技术与案例比较多,不过大数据发展还是比较快的。 从10年前的google三篇论文,到最近的 很火的Serverless的数据湖分析服务,发展还是相当快的。
核心在于科学家及分析师需要一种简单实用的语言,而Python比较合适,或者Python后续的设计就倾向于此。
hudi的出现确实为了解决类似的问题
哲学的回答:因为hadoop设计就是为了解决大数据分析问题,如果不能解决就没有hadoop 实际的原因:hadoop核心分为3个层次:存储hdfs、计算mr&tez、调度yarn 不过最近随着社区及云的发展,慢慢演变为:存储HDFS换成了S3或者OSS,调度Yarn换成了k8s,再计算引擎百花齐放,比如spark、比如各家云产商提供的数据湖分析服务,bigquery,阿里云数据湖分析dla等。
简单讲:flink是实时流,Spark Streaming是用批模拟流。
还有一种主流的方式,是直接提交到k8s
一般需要有监控的服务,设定一定的预期,后续检测是否符合预期。
一般情况下,弹性伸缩都有一定的度,比如min ~ max ,如果不在此区间视为异常。
可以参考:https://help.aliyun.com/document_detail/109858.html?spm=a2c4g.11186623.6.626.13cf7aaebUvMd1
阿里云有一款数据湖分析DLA:https://www.aliyun.com/product/datalakeanalytics 是Serverless的数据湖分析服务 可以了解下
云计算与大数据在网上单独讲的挺多的,可以看看。我讲下我的理解: 从业务层面看:云计算与大数据是两个业务,在公司很小,业务量很小的时候。往往是没有大数据的。在ecs上买几个机器就可以解决问题。当数据量多了以后,慢慢会有云计算的技术。 从技术层面看:云计算往往是IAAS层的,大数据一般是在PAAS层,PAAS层使用IAAS的技术。不过有一些大数据到业务层面,就直接到SAAS层了。
今天 AI大数据云计算 是非常能代表未来的词汇,所以就用这个这些词汇了。假以时日,可能会出现其他的此。
一般是调度程序在添加服务器时,主动推送一个消息到MQ。另外一种是主动轮询,一般效率相对低一点。不过 如果不敏感的业务,其实也是可以解决问题的。
RDS是多种规格的,在一般的mysql的基础之上提供了很多好用的功能。 - 保障性能与稳定性肯定是必要的 - 提供HA切换机制,很多是2台起步的 - 支持性能分析 - 提供数据备份的机制 - 支持跟数据湖分析DLA一起联合分析 等等