阿里巴巴MaxCompute亮相VLDB2017

简介: [摘要]8月28日-9月1日,第四十三届VLDB会议在德国慕尼黑举行。阿里巴巴在本届VLDB展区重点展示了MaxCompute、ApsaraDB、AliSQL、AnalyticDB和POLARDB等数据库和数据处理技术,引起现场与行业专家学者的注意和交流探讨。
8月28日-9月1日,第四十三届VLDB会议在德国慕尼黑举行。阿里巴巴在本届VLDB展区重点展示了MaxCompute、ApsaraDB、AliSQL、AnalyticDB和POLARDB等数据库和数据处理技术,引起现场与行业专家学者的注意和交流探讨。
edb4b284f7b34ad1241241051a0cb936ce6d92f2

VLDB,全称International Conference on Very Large Databases,是数据库领域三大顶级国际会议之一,是由成立于美国的非盈利性机构VLDB基金会赞助和运营。第一届VLDB于1975年在美国召开,大会以在全球普及数据库技术研究和交流作为使命。

本届VLDB共有来自全球的750篇研究论文投稿,其中133被接收,接收率不到18%。整体内容覆盖traditional database、data analysis、spacial and graph和deap leaning等领域。在现场展示方面,VLDB2017的参展厂商既包括Oracle、SAP、Microsoft等传统含数据库业务的厂商,也包括阿里巴巴、Google和Facebook等新兴的互联网科技企业。

阿里巴巴数据库技术作为阿里IT基础设施的重要组成部分,和阿里云数据库ApsaraDB的技术支撑,在工程实践和技术创新上一直走在同行前列。从2011起,阿里数据库技术团队开始使用MySQL等开源数据库和OceanBase自研数据库取代传统商业数据库,2016年双11创下支付峰值12万笔/秒世界纪录;经过历年双11磨练,基于MySQL深度定制的AliSQL比官方版本性能提升70%,秒杀场景下性能提升近百倍。

业务能力方面,阿里巴巴已将自有数据库技术和服务通过阿里云输出,满足电商、云计算和金融等多种应用场景的客户需求,目前阿里云提供近20种数据库服务,是全球最稳定、最完整的云数据库产品阵列。

阿里自研的大数据计算服务——MaxCompute(原名ODPS),技术上支持高达EB级存储并提供完善的数据导入方案,支持包括SQL、MapReduce、Graph等计算类型及MPI迭代类算法在内的多种计算模式,具备万台服务器扩展能力和跨地域容灾能力,为阿里云上千万客户提供快速、完全托管的PB级数仓解决方案。该通用计算平台承担着阿里巴巴集团,蚂蚁金服,菜鸟网络,高德,优酷土豆等关联公司95%以上的大数据存储和计算任务。对外,在阿里云公共云和专有云上提供PaaS大数据开放服务,是阿里云-数加的主力计算平台。升级后的 MaxCompute2.0 完全拥抱大数据开源生态,支持更多的语言功能,带来更快的运行速度,为人工智能等热门领域提供海量数据计算支持。

即将发布的阿里云POLARDB,基于最新的存储和网络硬件设备特点,大量采用高速网络互联、存储块设备、分布式文件系统、数据库物理复制、数据共享存储等热点技术手段,通过放弃传统分布式数据库OLTP多路并发写的支持,采用一写多读的架构设计,简化分布式系统难以兼顾的理论模型,大幅度提升OLTP性能。

阿里自研实时高并发在线分析型数据库AnalyticDB,支持毫秒级的多个大表关联计算,全面兼容MySQL协议,内置支持多种数据源数据快速接入,支持高并发准实时数据写入/删除,写入速度可达数百万TPS,对千亿级数据进行即时的多维分析透视和业务探索。

在现场3天的交流展示环节中,众多工业界技术专家和高校学者到访阿里巴巴技术展台,就阿里目前在数据库和大数据方面的技术进展进行交流。来自Facebook的华人工程师陈国强回忆到,他曾在2012年初次来杭州做过交流,到VLDB2014在杭州举办,再到今天VLDB2017现场交流,让他感觉到阿里在大数据技术方面的能力和硅谷的差距正在迅速变小。


a6739cdf42f90a758cfd922b98cc98e3b902adec
Yoshinori Matsunobu和林晓斌在阿里巴巴展台合影

近年来,阿里巴巴数据库技术和学界合作也走在了前列,此次参与VLDB2017的数据技术领域知名学者,IEEE Fellow、新南威尔士大学林学民教授,已经在图数据库领域和阿里巴巴数据库技术团队一起展开合作。前微软研发合伙人周靖人也在去年加入阿里巴巴,周靖人是云计算大数据、大规模分布式系统和数据库等领域的国际级学者,他曾多次在数据和系统领域的国际顶会议上(VLDB、SIGMOD和ODSI等)发表论文,也是此次VLDB2017的工业和应用分论坛的主席之一。在此次展会期间,还有来自德雷斯顿理工的Wolfgang Lehner教授,滑铁卢大学的Tamer Ozsu教授等国际数据库学界顶级专家造访阿里技术展台并交流探讨。

fa24d4f2fae57d7d7bf14f93277fa9b0ca752439
周靖人和加拿大滑铁卢大学Tamer Ozsu教授等人在阿里巴巴展台合影

从3月推出的NASA计划,到7月推出首个全球性科研项目“AIR”计划,阿里巴巴旨在解决社会经济发展中的“新技术”难题,驱动行业未来20年发展的科研项目,希望以此搭建学术界和工业界的合作平台,联合双方优势共同促进前沿技术的发展,推进计算机科学领域基础性、前瞻性、突破性的研究,构建全新基础技术生态。

231917d3ccd8c2bd659b2da51d3fffe93a879a0a点击活动链接

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
分布式计算 算法 搜索推荐
阿里巴巴内部:2022年全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 大数据:Spark、Hadoop
|
7月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
2298 0
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
8月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
765 1
|
8月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
370 0
大数据之路:阿里巴巴大数据实践——离线数据开发
|
7月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
589 0
|
7月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
644 0
|
存储 分布式计算 大数据
大数据之路:阿里巴巴大数据实践——大数据领域建模综述
数据建模解决数据冗余、资源浪费、一致性缺失及开发低效等核心问题,通过分层设计提升性能10~100倍,优化存储与计算成本,保障数据质量并提升开发效率。相比关系数据库,数据仓库采用维度建模与列式存储,支持高效分析。阿里巴巴采用Kimball模型与分层架构,实现OLAP场景下的高性能计算与实时离线一体化。
827 0
|
8月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。
845 0
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
1876 1
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute是由阿里巴巴集团创建的
【7月更文挑战第1天】
365 58

相关产品

  • 云原生大数据计算服务 MaxCompute