参加2012 DTCC大会,总结Big data的趋势

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介:

参加了2012中国数据库技术大会,综合各方的演讲、资料和个人理解,总结出Big data(大数据)的趋势。

本次技术大会议题众多,但无论是企业级应用还是互联网应用,关注的焦点无一不是“大数据”。


传统的IBMOracle关注企业级大数据的统一解决方案,并已经提供了商业的产品;互联网的百度、淘宝、腾讯等都基于自己的业务和互联网的特点,构建了自己的大数据系统。一些研究机构或者学术机构,也已经被这个由互联网刮起的“大数据”旋风吸引,开始投入更多的精力进行相关理论上的研究。

现在比较流行的所谓“大数据”一般都是指历史的静态数据,例如日志数据、历史的业务数据;但经过我个人的理解和观察,其实“大数据”目前已经划分为两大部分“在线大数据(Online big data”、“离线大数据(Offline big data”。由于两类数据的访问要求不同,虽然不同公司的业务不一样,但基本上都殊途同归,两类数据的处理基本类似。

在线大数据

在线大数据主要是在线业务数据,比如百度的贴吧、淘宝的商品等,这类数据具有“海量访问”的特点,对读写要求特别高,包括读写的时延(决定用户的响应速度)、并发量(决定用户的并行数量)都比较苛刻,一般都要求时延在毫秒级,并发量在万级甚至十万级。

从这次大会的内容来看,无论是企业级应用,还是互联网级的应用,都采用了“数据库集群”的解决方案。企业级应用采用了商用数据库集群,例如Oracle Rac;互联网企业基本都是基于mysql构建自己的集群,例如淘宝的TDDL,百度的dbproxy等。


另外,淘宝使用了HBase集群提供在线大数据的服务,这可能是未来互联网在线大数据应用的一个趋势,个人分析原因如下:

1)业务复杂多变:互联网业务存在复杂多变的特征,传统的关系型数据库(例如MySQL)在应对数据变化方面存在天然的不足(特别是MySQL在线修改的能力更弱),

2)数据库集群存在中间层瓶颈:基于MySQL构建的数据库集群存在中间层的瓶颈(例如proxy本身成为瓶颈,估计只能达到10万量级)。

离线大数据

离线数据主要是历史数据,例如日志,历史业务数据,这部分数据主要用于数据分析和数据挖掘,不直接面向最终用户,具有“海量存储”的特点,对于存储容量要求特别高,一般都是PB级别的数据,存储服务器达到几百上千台,但这类数据对读写要求不像在线数据那么严格。

从这次大会的演讲内容来看,企业级的应用倾向于提供一体机(包括解决方案、软件、硬件)来完成离线大数据的处理,互联网应用毫无例外的都集中到了Hadoop体系上面,其中几个先行的公司已经在定制Hadoop了,例如百度、淘宝。


总结:
Big data的现状可以总结为如下图:


在RDBMS集群方面,国内的几个大公司都有自己的解决方案,但都不开源,开放心态还远远不够,令人遗憾!!
幸运的是最近已经看到Youtube已经开源了类似的解决方案Vitess,大家有时间研究一下,没有必要自己又造一个轮子啦!!!

另外,HBase是一个令人惊讶的产品,能够同时为两种不同类型的数据提供解决方案,值得大家深入研究!

附:

1)文中提到的相关互联网企业的信息都是从DTCC大会获取的,可能存在不准确或者错误的地方,如果需要引用,请三思!
2)Vitess项目地址: http://code.google.com/p/vitess/



相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
算法 区块链
区块链项目的商业模式有哪些成功案例
**评估区块链项目潜力的关键因素包括:技术创新与应用场景(如共识算法、交易速度)、团队背景与发展战略(团队经验、市场定位)、社区活跃度与合作伙伴(用户参与、合作网络)、透明度与合规性(信息透明、法规遵循)、技术可行性(技术成熟度、安全性)及商业模式与市场可行性(市场规模、用户需求)。这些综合考量帮助判断项目的成功潜力和市场前景。**
|
机器学习/深度学习 存储 人工智能
未来的移动通信网络,6G与人工智能的融合
在最近的几十年中,移动通信网络从1G发展到6G,通信关键技术层出不穷、迅速发展,广泛应用在人类社会的各行各业,成为社会信息化变革的重要支撑。
1338 0
未来的移动通信网络,6G与人工智能的融合
|
安全 Linux 数据安全/隐私保护
几种常见的联网方式
这个世界的一切都可以数字化。无论是文字、 图像还是声音,每时每刻,都有无数的 “包裹”携带着一个个比特从世界的这头奔向另一头。这种疯狂的现象如今已经司空见惯,没有人能够完全离开它。网络是人类最伟大的发明之一,这使人类进入了一个全新的时代。
几种常见的联网方式
zh-cn 和zh的意思
zh-cn:指的是中文整体,可以是方言、文言文、简繁体等混合内容。
1739 0
|
人工智能 运维 监控
揭秘:技术风险如何保障支付宝的稳定性?
支付宝有一个“疯起来连自己都打”的项目,现在,它要招募应届生了!这是一个什么样的项目?它需要什么样的应届生?别着急,让我一一道来。
4384 0
揭秘:技术风险如何保障支付宝的稳定性?
|
监控 关系型数据库 API
Dataphin数据服务系列之--API 配置、管理和消费
研发小哥哥还在为公司里大量 API 只上不下,不可查不可用, 想找的 API 找不到而苦恼吗?业务方小姐姐还在为 API 开发时间长,业务相应不及时而抱怨吐槽吗? 铛铛铛,Dataphin 数据服务 -- API 配置管理,闪亮登场!助力研发小哥哥五分钟搞定 API,提升业务响应速度,同时大大提升 API 复用能力!作者:张尘初 更多内容详见数据中台官网 https://dp.alibaba.comDataphin 数据服务Dataphin 是阿里巴巴数据中台(OneData - OneModel、OneID、OneService)方法论的产品载体。
4629 0
如何将钉钉和企业邮箱结合起来使用
最近在研究一个目前常见的企业办公模式,企业邮箱和钉钉的结合。 企业邮箱已经成为企业在现今互联网时代中不可缺少的通讯工具之一,企业邮箱的地址格式一般为“员工姓名@公司域名”,相对于个人邮箱,企业邮箱能为企业带来更多价值。
8444 0
|
监控 中间件 Apache
基础业务集成开发平台(BusinessWorks) - 概要设计篇
Businesworks的设计目标是为复杂业务系统提供平台化的底层支持,所谓平台化,就是对业务开发能以扩展,隔离的方式推进,驱动业务快速支持。
17251 0
|
传感器 编解码 自动驾驶
最新毫米波雷达技术带来工业物联网智能化关键选择
在5G、AR、云计算等技术席卷下,全球众多优秀制造企业都已经投身智能制造的火热浪潮中。当前,包括美国、德国、日本等国均从政策支持、经费资助、企业实践等多维度持续深化工业物联网发展,全球工业物联网领域竞争日趋激烈。据麦肯锡预测,到2025年以智慧工厂为代表的B2B产业的价值将达到3.9万亿美元。

热门文章

最新文章