Databricks:打造数据国度的“金砖四国”

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

Databricks,一个并不算熟悉的名字,是大数据国度的后起之星。成立不够一年,但却阵容强大,创始人都是开源圈子里面的重要级人物,值得关注。从公司名Databricks似乎就能看出一些深意——data(数据)+bricks(金砖四国)。不知道,在数据国度里Databricks是否具有“金砖四国”的发展前景呢?

Databricks:打造数据国度的“金砖四国”

可以先从公司的创始背景谈起,打开Databricks官网,“We're working to revolutionize what you can do with big data“映入眼帘。其格外简约不能再简约,可以用清新的字眼来描述网站来看,这一行字相信解读为公司创立的最初想法和终极目标似乎不为过。

Databricks是由Apache Spark的创始人建立的,成立于2013年年中,公司重于研发尖端系统,以从大数据中获取价值。Databricks认为大数据仍存在很大部分尚未开发的机遇,这也就是他们所要做的,通过改革来寻找到底大数据可以帮助人们做些什么。

Databricks:打造数据国度的“金砖四国” 

加州大学伯克利分校,摄于2013年

Databricks:打造数据国度的“金砖四国”

也许正是基于此背景,Databricks目前的阵容对于大数据领域来说有不少亮点。团队人员均是开源圈子内的重量级人物,他们都热衷于“增值开源软件”:任职CEO 的Ion Stoica是UC Berkeley计算机教授、AMPLab联合创始人,同时也是Conviva公司的联合创始人(位于后排右三);CTO Matei Zaharia 是Apache Spark的创作者,同时也是麻省理工学院计算机科学系的助理教授(位于后排左三);UC Berkeley计算机科学教授Scott Shenker。同时也是知名SDN公司Nicira的联合创始人及前CEO(位于后排右二);值得一提的是联合创始人辛湜先生(英文名Reynold Xin,新浪微博为@hashjoin)还是一名中国人,无疑会带给Databricks公司多一分的中国色彩,他同时也是Spark的核心成员(位于前排左二)。

对于这家新兴的大数据公司,最好奇的就是他所拥有的大数据产品到底是什么呢?可以这么说,如果将Databricks公司的产品说成是Spark社区,其实不如说Databricks主要服务于Spark。这一点我们从其团队的主要成员不难看出。按照辛湜先生在媒体访问中所说,Databricks的目标是从Spark开始,构建一系列更强大、更简单的大数据分析处理工具盒平台。

不错,从其对外公布的官方博客中,这一点也得到了印证。3月18日宣布Databricks“认证Spark”项目主要用于那些建立在Apache Spark平台顶部上的应用,其实就是确保被认证的应用与许多Spark发行的商业支持一起使用。Databricks CEO Ion Stoica表示在此次项目中,Databricks将处理与认证的Apache在各商业版本中的兼容性任务,并能够很快确定其初始设置的分派是否满足此条件。

这里,可以顺便一起回顾下Apache Spark,它是一个开源数据处理引擎,用于构建高效率的、易用的和复杂分析的Hadoop数据,最初是成立于2009年的加州大学伯克利分校(UC Berkeley)AMPLab,正式开源是在2010年。正如Apache Spark做到100%的开源,Databricks也依旧遵循此规则。目前Spark已经发展成为大数据领域最大的开发者社区,有超过来自30个组织的100多个贡献者。不得不说注入如此基因的Databricks,绝对会更“亲民”。

迄今为止,这家极尽低调的公司Databricks,可以用神秘的大数据公司来形容。但在其成立不到一年的时间内,还是获得了Andreessen Horowitz 1400万美元投资。Andreessen Horowitz曾先后投资了Groupon、Skype、Zynga、Foursquare和Facebook等著名的互联网公司,外媒BusinessInsider曾将他誉为硅谷最具权威的50个天使投资人之一。

同时,Databricks还有个同样在大数据领域不容小觑的合作伙伴。从去年(2013年)Hadoop World会议上,就爆出Cloudera决定提供Apache Spark的全企业级支持,这也就意味着Databricks将成为Cloudera的第一个合作伙伴。Cloudera最近也是新闻不断,刚斩获了1.6亿美元 的融资,上市消息不断传出。

合作方式主要是Databricks帮助Cloudera提供支持,虽然目前Databricks仅以类似OEM的关系获益,该协议仅限于扩展Apache Spark,不会发布任何商业版本的Databricks。但正如Cloudera公司联合创始人兼CTO Amr Awadallah所说,此次合作将是作为Cloudera所有感兴趣的客户创新的枢纽,无疑这将为这家新兴创业公司赢得业界内的信誉。

此外,Databricks对于中国市场也很是看重,从主要创始人多次参加相关活动足以看出。近期就有一个机会,期待的伙伴们或许可以亲临现场。本月19日Databricks受邀参加“2014中国Spark技术峰会”(Spark Summit China 2014),届时期待Databricks公司成员Andy Konwinski的发言。

温馨提示:想要快速了解Databricks的网友,可火速点击http://stor-age.zdnet.com.cn/special/big_data_Databricks

原文发布时间为:2014年04月08日
本文作者:林利
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
机器学习/深度学习 数据采集 分布式计算
【颠覆传统!】揭秘Databricks如何助力零售业需求预测——从数据到洞察,一秒钟变销售预言家!
【8月更文挑战第9天】随着大数据技术的发展,数据驱动决策日益关键,尤其在零售业中,通过分析历史销售数据预测未来趋势变得至关重要。本文探讨如何运用Databricks平台优化零售业需求预测。Databricks是一个基于Apache Spark的统一数据分析平台,能高效处理大规模数据任务。通过示例代码展示数据读取、预处理及建模过程,相较于传统方法,Databricks在数据处理能力、可扩展性、内置机器学习库以及协作版本控制方面展现出显著优势,帮助零售商优化库存管理、提升客户体验并增加销售额。
102 8
|
存储 分布式计算 数据挖掘
【数据湖仓架构】数据湖和仓库:Databricks 和 Snowflake
【数据湖仓架构】数据湖和仓库:Databricks 和 Snowflake
|
存储 SQL 分布式计算
【数据湖仓】数据湖和仓库:Databricks 和 Snowflake
【数据湖仓】数据湖和仓库:Databricks 和 Snowflake
|
SQL 分布式计算 资源调度
使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】
本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。
547 0
使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】
|
存储 SQL 人工智能
如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】
Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上,并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake,最终可以实践到工作当中。
488 0
如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】
|
SQL 存储 分布式计算
Delta Lake的演进历史及现状【Databricks 数据洞察公开课】
从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。
1105 4
Delta Lake的演进历史及现状【Databricks 数据洞察公开课】
|
消息中间件 存储 SQL
使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】
本文介绍网约车模拟数据从产生,发布到流数据服务 Confluent,通过Databricks Structured Streaming进行实时数据处理,存储到LakeHouse,并使用spark和spark sql进行分析的应用实践。
715 0
使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】
|
机器学习/深度学习 存储 数据采集
使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】
本文介绍如何使用Databricks进行广告效果归因分析,完成一站式的部署机器学习,包括数据ETL、数据校验、模型训练/评测/应用等全流程。
774 0
使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】
|
机器学习/深度学习 存储 弹性计算
使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】
介绍如何使用Databricks和MLflow搭建机器学习生命周期管理平台,实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。
1102 0
使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】
|
存储 SQL JSON
Delta Lake基础介绍(开源版)【Databricks 数据洞察公开课】
针对社区版本Delta Lake提供的几大核心特性进行讲解,并通过示例演示如何使用这些特性。
892 0
Delta Lake基础介绍(开源版)【Databricks 数据洞察公开课】

热门文章

最新文章