Databricks:打造数据国度的“金砖四国”

简介:

Databricks,一个并不算熟悉的名字,是大数据国度的后起之星。成立不够一年,但却阵容强大,创始人都是开源圈子里面的重要级人物,值得关注。从公司名Databricks似乎就能看出一些深意——data(数据)+bricks(金砖四国)。不知道,在数据国度里Databricks是否具有“金砖四国”的发展前景呢?

Databricks:打造数据国度的金砖四国

可以先从公司的创始背景谈起,打开Databricks官网,“We're working to revolutionize what you can do with big data“映入眼帘。其格外简约不能再简约,可以用清新的字眼来描述网站来看,这一行字相信解读为公司创立的最初想法和终极目标似乎不为过。

Databricks是由Apache Spark的创始人建立的,成立于2013年年中,公司重于研发尖端系统,以从大数据中获取价值。Databricks认为大数据仍存在很大部分尚未开发的机遇,这也就是他们所要做的,通过改革来寻找到底大数据可以帮助人们做些什么。

Databricks:打造数据国度的金砖四国 

加州大学伯克利分校,摄于2013年

Databricks:打造数据国度的金砖四国

也许正是基于此背景,Databricks目前的阵容对于大数据领域来说有不少亮点。团队人员均是开源圈子内的重量级人物,他们都热衷于“增值开源软件”:任职CEO 的Ion Stoica是UC Berkeley计算机教授、AMPLab联合创始人,同时也是Conviva公司的联合创始人(位于后排右三);CTO Matei Zaharia 是Apache Spark的创作者,同时也是麻省理工学院计算机科学系的助理教授(位于后排左三);UC Berkeley计算机科学教授Scott Shenker。同时也是知名SDN公司Nicira的联合创始人及前CEO(位于后排右二);值得一提的是联合创始人辛湜先生(英文名Reynold Xin,新浪微博为@hashjoin)还是一名中国人,无疑会带给Databricks公司多一分的中国色彩,他同时也是Spark的核心成员(位于前排左二)。

对于这家新兴的大数据公司,最好奇的就是他所拥有的大数据产品到底是什么呢?可以这么说,如果将Databricks公司的产品说成是Spark社区,其实不如说Databricks主要服务于Spark。这一点我们从其团队的主要成员不难看出。按照辛湜先生在媒体访问中所说,Databricks的目标是从Spark开始,构建一系列更强大、更简单的大数据分析处理工具盒平台。

不错,从其对外公布的官方博客中,这一点也得到了印证。3月18日宣布Databricks“认证Spark”项目主要用于那些建立在Apache Spark平台顶部上的应用,其实就是确保被认证的应用与许多Spark发行的商业支持一起使用。Databricks CEO Ion Stoica表示在此次项目中,Databricks将处理与认证的Apache在各商业版本中的兼容性任务,并能够很快确定其初始设置的分派是否满足此条件。

这里,可以顺便一起回顾下Apache Spark,它是一个开源数据处理引擎,用于构建高效率的、易用的和复杂分析的Hadoop数据,最初是成立于2009年的加州大学伯克利分校(UC Berkeley)AMPLab,正式开源是在2010年。正如Apache Spark做到100%的开源,Databricks也依旧遵循此规则。目前Spark已经发展成为大数据领域最大的开发者社区,有超过来自30个组织的100多个贡献者。不得不说注入如此基因的Databricks,绝对会更“亲民”。

迄今为止,这家极尽低调的公司Databricks,可以用神秘的大数据公司来形容。但在其成立不到一年的时间内,还是获得了Andreessen Horowitz 1400万美元投资。Andreessen Horowitz曾先后投资了Groupon、Skype、Zynga、Foursquare和Facebook等著名的互联网公司,外媒BusinessInsider曾将他誉为硅谷最具权威的50个天使投资人之一。

同时,Databricks还有个同样在大数据领域不容小觑的合作伙伴。从去年(2013年)Hadoop World会议上,就爆出Cloudera决定提供Apache Spark的全企业级支持,这也就意味着Databricks将成为Cloudera的第一个合作伙伴。Cloudera最近也是新闻不断,刚斩获了1.6亿美元 的融资,上市消息不断传出。

合作方式主要是Databricks帮助Cloudera提供支持,虽然目前Databricks仅以类似OEM的关系获益,该协议仅限于扩展Apache Spark,不会发布任何商业版本的Databricks。但正如Cloudera公司联合创始人兼CTO Amr Awadallah所说,此次合作将是作为Cloudera所有感兴趣的客户创新的枢纽,无疑这将为这家新兴创业公司赢得业界内的信誉。

此外,Databricks对于中国市场也很是看重,从主要创始人多次参加相关活动足以看出。近期就有一个机会,期待的伙伴们或许可以亲临现场。本月19日Databricks受邀参加“2014中国Spark技术峰会”(Spark Summit China 2014),届时期待Databricks公司成员Andy Konwinski的发言。

温馨提示:想要快速了解Databricks的网友,可火速点击http://stor-age.zdnet.com.cn/special/big_data_Databricks

原文发布时间为:2014年04月08日
本文作者:林利
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
11月前
|
存储 分布式计算 数据挖掘
【数据湖仓架构】数据湖和仓库:Databricks 和 Snowflake
【数据湖仓架构】数据湖和仓库:Databricks 和 Snowflake
|
11月前
|
存储 SQL 分布式计算
【数据湖仓】数据湖和仓库:Databricks 和 Snowflake
【数据湖仓】数据湖和仓库:Databricks 和 Snowflake
|
消息中间件 存储 SQL
使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】
本文介绍网约车模拟数据从产生,发布到流数据服务 Confluent,通过Databricks Structured Streaming进行实时数据处理,存储到LakeHouse,并使用spark和spark sql进行分析的应用实践。
605 0
使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】
|
机器学习/深度学习 存储 数据采集
使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】
本文介绍如何使用Databricks进行广告效果归因分析,完成一站式的部署机器学习,包括数据ETL、数据校验、模型训练/评测/应用等全流程。
593 0
使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】
|
机器学习/深度学习 存储 弹性计算
使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】
介绍如何使用Databricks和MLflow搭建机器学习生命周期管理平台,实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。
856 0
使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】
|
存储 SQL JSON
Delta Lake基础介绍(开源版)【Databricks 数据洞察公开课】
针对社区版本Delta Lake提供的几大核心特性进行讲解,并通过示例演示如何使用这些特性。
792 0
Delta Lake基础介绍(开源版)【Databricks 数据洞察公开课】
|
存储 数据采集 机器学习/深度学习
深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】
从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。
1038 0
深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】
|
SQL 存储 分布式计算
Delta Lake的演进历史及现状【Databricks 数据洞察公开课】
从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。
738 0
Delta Lake的演进历史及现状【Databricks 数据洞察公开课】
|
SQL 分布式计算 资源调度
使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】
本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。
450 0
使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】
|
消息中间件 机器学习/深度学习 存储
企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值
本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。
235 0
企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

热门文章

最新文章