下一代大数据:Twitter 公布曼哈顿实时数据库细节

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

Twitter曼哈顿数据库的横空出世表明当今的数据库技术已经无法满足大型互联网公司的独特需求,新一轮数据库技术革命已经启动。

Twitter是所有大型互联网公司中产品实时性和技术进化速度最快的一个,本周Twitter在博客中公布了实时数据服务的核心引擎——曼哈顿(Manhattan)数据库的技术细节。曼哈顿是一个分布式、实时数据库,服务对象是Twitter公司内部的多个团队和应用。

曼哈顿数据库的数据处理能力和速度让当今流行的开源数据库相形见绌,这些数据库已经无法满足Twitter规模的生产环境,正如Twitter软件工程师Peter Schuller所言:

我们为了让生产系统满足各种产品的性能预期而四处救火,浪费了太多时间。为一个新应用配置存储资源需要涉及太多的人工和流程。根据我们的经验,为Twitter这样的大规模web业务开发和运营生产存储环境,采用现成的数据库技术已经行不通了。

Schuller在博客中详细介绍了Twitter如何开发出曼哈顿这样的高可靠、高可用、易用的新一代数据库。同时也公布了一些为曼哈顿数据库设 计的一些数据格式的细节。目前,用户通过key-value存储的方式使用曼哈顿数据库,未来Twitter还计划增加包括图形界面在内的用户界面。曼哈 顿数据库有三个存储引擎,分别面向只读Hadoop数据、大量读取数据和大量写入数据。此外曼哈顿还内置了很多服务,包括导入Hadoop数据,确保数据 一致性和计算时间序列数据等。
screenshot

对于开发者和工程师来说最重要的一点是,曼哈顿作为一种存储服务可以像其他任何一种云存储服务一样使用。工程师数秒钟就可以为应用配置好存储资源, 无需等待安装硬件或对系统架构进行重新配置。Twitter将重点放在确保曼哈顿的多租户使用的整体性能不会因某个租户占用过多资源而受到影响。

Twitter计划在择日发布的曼哈顿数据库技术白皮书中公布具体技术开发细节。作为开源软件的重量级拥趸,Twitter很可能会在将来某个时间将曼哈顿数据库技术开源。实际上,Twitter曾于2012年将其MySQL代码开源,最近又与Facebook携手开发WebScaleSQL开源数据库项目。

Twitter曼哈顿数据库的横空出世表明当今的数据库技术已经无法满足大型互联网公司的独特需求。Twitter、Google、 Facebook和LinkedIn已经抛弃了最初的NoSQL技术(这些NoSQL技术正在进入大型企业),纷纷开发下一代数据库技术,正如他们当年开 发Cassandra、Voldemort和BigTable那样。也许曼哈顿将成为未来的Cassandra,而LinkedIn的Espresso成为新的MongoDB(编者按:MongoDB因获得NSA投资而在发展中市场受挫),成为下一代创业公司开发者的宠儿。

文章转载自 开源中国社区 [http://www.oschina.net]

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
人工智能 算法 搜索推荐
数据平台演进问题之在AI时代传统数据库会面临什么变化
数据平台演进问题之在AI时代传统数据库会面临什么变化
|
5月前
|
人工智能 搜索推荐 算法
数据平台演进问题之数据库技术面临挑战如何解决
数据平台演进问题之数据库技术面临挑战如何解决
129 0
|
2月前
|
算法 大数据 数据库
云计算与大数据平台的数据库迁移与同步
本文详细介绍了云计算与大数据平台的数据库迁移与同步的核心概念、算法原理、具体操作步骤、数学模型公式、代码实例及未来发展趋势与挑战。涵盖全量与增量迁移、一致性与异步复制等内容,旨在帮助读者全面了解并应对相关技术挑战。
52 3
|
2月前
|
SQL 缓存 大数据
C#高效处理大数据的批次处理,以及最好的数据库设计
C#高效处理大数据的批次处理,以及最好的数据库设计
76 0
|
2月前
|
大数据 关系型数据库 数据库
python 批量处理大数据写入数据库
python 批量处理大数据写入数据库
131 0
|
4月前
|
关系型数据库 MySQL 大数据
教你使用Python玩转MySQL数据库,大数据导入不再是难题!
教你使用Python玩转MySQL数据库,大数据导入不再是难题!
|
4月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用合集之如何实现类似mysql实例中的数据库功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
人工智能 自然语言处理 数据管理
数据平台演进问题之自然语言处理技术在AI驱动的数据库中的作用是什么
数据平台演进问题之自然语言处理技术在AI驱动的数据库中的作用是什么
|
5月前
|
数据采集 分布式计算 大数据
MaxCompute产品使用合集之数据集成中进行数据抽取时,是否可以定义使用和源数据库一样的字符集进行抽取
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。