专注在大数据分布式计算、数据库及存储领域,拥有13+年大数据引擎、数据仓库、宽表引擎、平台研发经验,6年云智能大数据产品技术一号位经验,10年技术团队管理经验;云智能技术架构/云布道师; 研发阿里历代的大数据技术产品包括ODPS、DLA、ADB,最近五年主导宽表引擎研发、DLA、ADB湖仓研发;
暂时未有相关通用技术能力~
阿里云技能认证
详细说明OLAP是一个很卷的赛道,创业公司也众多。基于笔者10+年的大数据与数据仓库的工作经验,就目前的数据仓库主流趋势:离在线一体化、引擎一体化、云原生化等写一些思考,抛砖引玉。
《数据密集型应用系统设计》是一本很好的介绍数据密集类系统设计原理的纲要性书籍,笔者再次阅读下,记录一些读书笔记,也写一些自己的思考穿插其中,以做备忘。
《数据密集型应用系统设计》是一本很好介绍数据密集类系统设计原理的纲要性书籍,笔者再次阅读下,记录一些读书笔记,也写一些自己的思考穿插其中,以做备忘。
数据库事业部承载着阿里巴巴及阿里云的数据库服务,为超过数万家中国企业提供专业的数据库服务。我们提供在线事务处理、缓存文档服务、BigData NoSQL服务 、在线分析处理的全栈数据库产品。本团队提供基于Apache HBasePhoenixSparkCassandraSolrES等,结合自研技术,打造存储、检索、计算的一站式的BigData NoSQL自主可控的服务,满足客户的数据驱动业务的诉求。
HBase多模式,包括 分析层:支持复杂分析、算子下推;多模式层:提供各种模型转换,贴切业务;索引引擎:提供索引支持,基于 Lucene ;存储引擎:提供 KV 支持,基于LSM;分布式文件层:保障低成本、与上层分离、共享降低成本
在服务客户的时候,经常会被问到,我该选择什么配置的HBase呢?今天我们就来好好谈谈这个问题。
HBase可以说是一个数据库,也可以说是一个存储。拥有双重属性的HBase天生就具备广阔的应用场景。在2.0中,引入了OffHeap降低了延迟,可以满足在线的需求。引入MOB,可以存储10M左右的对象,完全适应了对象存储。另外由于自身的并发能力、存储能力,可以说是具有最为竞争力的引擎
HBase在互联网领域有广泛的应用,比如:互联网的消息系统的存储、订单的存储、搜索原材料的存储、用户画像数据的存储等,除此之外,在其它领域也有非常多的应用。
最近有一些客户在选择云HBase的规格时,往往比较迷糊,规格这么多,磁盘这么多,怎么选择呢?往往客户会有一定的迷糊。这里我们介绍下一些选择的逻辑,也预告下后续推出的规格。
HBase这几年在国内使用的越来越广泛,在一定规模的企业中几乎是必备存储引擎,互联网企业阿里巴巴、百度、腾讯、京东、小米都有数千台的HBase集群,中国电信的话单、中国人寿的保单都是存储在HBase中。
为了让营造一个针对云HBase的技术交流平台,我们特别新建了交流群
阿里云云HBase团队在2月份推出了云HBase产品,此款产品的内核在集团内部已经使用了6年之久,那么跟社区版本的HBase有怎样的区别,我们又做了怎样的产品化,本系列将会为用户详细介绍这些点。
物联网最大的特点写入量大,要求延迟低,且数据存量巨大。云HBase非常满足物联网存储需求,存储数P甚至百P的空间存储需求,延迟稳定在数毫秒之内,跟Hadoop分析体系有较为深入的结合,满足分析类的需求。
纵观数据库发展的几十年,从网状数据库、层次数据库到RDBMS数据库,在最近几年的NewSQL的兴起,加上开源的运动,再加上云的特性,可以说是日新月异。云HBase数据库及时上线,一站式解决客户的大数据存储问题。
年关将至,Mongodb数据丢失的事情还在眼前,数以千计的Mongodb数据库已经被删除或者被黑客勒索,就在最近一段时间,黑客也在攻击Hadoop,有不少Hadoop集群的数据全部丢失,这些数据甚至有上TB的数据量,对企业造成了巨大的损失。本文讲述这个问题及后续的预防方案。
本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引,需要具备哪些要求,如果不具备则可以往这方面努力。
大数据相关的场景比较多,常见的有:ETL(数据提取、转换、加载)、实时流式(监控报警、风控等)、机器学习(推荐引擎、用户画像等)、非结构化分析(视频、图片、语音、文本等)、海量大数据在线存储(HBase)、搜索及我们本文讲的OLAP。 其中OLAP(在线联机分析)在很多企业占住分析类的大部分。
此次发布的岗位均是 Hadoop、Spark、HBase、flink等底层引擎内核的研究机会,机会难得,小伙伴们赶紧尝试下。工作地点杭州、北京。简历发给我:dragon.caol@alibaba-inc.com
我们从大数据的特征说起,谈到了大数据的价值,再聊什么时候做,谁去做,选择什么平台,最后聊到了怎么做的问题。通过对一些真实的场景分析,了解了大数据的全貌。