北京年会和关于数据仓库板块的思考

简介:
   说实话我认为是一个喜欢研究技术的人,虽然我的 Oracle 、 Sybase 、 SQLServer 等数据库 水平实在很菜,甚至 Powerbuilder,VB,Java 水平也不过尔耳;在火车上是和 hanson 、 yxyup 、 yeahy 三位 Oracle 高手一起入住的;在 08 年会 上新认识的 warehouse 、 zhouwf0726 、赵宇;包括 ningoo 、 blue_prince 、 xzh2000 、 piner 在内的淘宝的一系列的 DBA ; yangtingkun 、 D.C.B.A 、 rollingpig 这样的牛人;其他 DBA 像老朱、 diablo2 虽然是 DB2 或者已经不做数据库了;还有棉花糖这个好学生; ora-600 这个职业讲师兼自由人;已经当了官的 QQ 小鸟; HP 的 yanggq 、 fusnow 、 skyjiang ;当然还有 eygle 和 biti 这两位超级牛人,虽然他们不一定认识我; Oracle 板块的斑竹我应该认识一半有余了;总的来说给我的感觉他们的数据库功底非常的深厚, Oracle 的 DBA 队伍越来越庞大,人才济济;这一点看看数据库的分会场就知道了,这一块也是 itpub 安身立命的基础 ,也是打败各个其他论坛的基石,衷心希望 itpub 能够坚持下去, DBA 能够一代一代的传承下去;环顾过去数据仓库只有我和 flywolf2000 两个人参会,未免太形单影只了,当然数据仓库并不是我们两个可以代表的。
 
当然除了 itpub 之外还有一些其他活跃的论坛和群组,像 TTNN 、 dwway 、 ChinaBI 、 BI 立方体-商业智能社区、 CSDN 的子板块。
 
http://www.dwway.com/ 好像那里需要发表原创文档才能成为正式会员,反正我发了一篇之后就没去过了,要求门槛太高,变成阳春白雪了,对于普及和发展阶段的 BI/DW 并非什么好事。
http://www.ChinaBI.com/ 网站口气很大,不过似乎并不活跃,那里的文章转载居多(当然也包括我的,曾向我约稿过,后来就没怎么谈了),所有的博客访问量比我多一些,以介绍案例为主
http://www.bicubes.com 是个刚成立的网站,最近折腾的比较厉害,刚开始在 itpub 上做广告,还因为转载文章的缘故,在数据仓库板块 PK 了一阵子,着是热闹了一阵子,没理会他,最近联合 TTNN 组织过两次 BIER 的聚会。曾经想注册看看虚实,无奈新浪邮箱注册不了也就算了,不过更新很慢。
http://groups.google.com/group/ttnn 算是个比较火的 BI/DW 讨论群组了,每个月定期会出一本电子杂志,创办人独立支撑了两年 ( 确实很不容易 ) ,务虚和耍嘴皮子的太多而真正做架构的很少,很多东西流于概念 ,谈不到一起,后来我也就是定期去下载杂志,不怎么发言了。道不同不相为谋,没准别人认为我层次太低呢。上面的数据仓库板块可以忽略不谈了
 
itpub 的数据仓库板块现状又如何呢?
只能说数据仓库板块依托于 itpub 数据库板块和社区功能情况还不至于太糟糕;搞数据库的往往自以为数据库和性能优化可以解决一切数据仓库问题,自然不屑于这些有些理想化和过于理论化的东西,像盛大好像就是如此花了很多时间请外面的人讲解数据仓库基本知识; ebay 倒是有一批专职数据仓库人员的,可相当部分是 HP 过去的,因为 ebay 的数据仓库就是 HP 的人在维护和实施的;呵呵,不知道淘宝的数据仓库如何; itpub 上讨论具体工具使用的太多,还处于初级阶段,当然这和数据仓库自身的特点很有关系, BI/DW 包括了数据库、 OLAP 、报表展现工具、 ETL 工具等等,每种又包括若干主流工具,数据仓库解决方案可能由几十种组合方式,大家疲于奔命只好学习 工具而不能自拔了;稍微有些数据仓库工作经验的就开始务虚了,讨论这个概念那个概念的,以为概念能解决任何问题;有些人过分拘泥于数据仓库的概念,对数据仓库、数据库、 OLAP 、 BI 本身的概念纠缠不休,殊不知数据仓库本身就在不断的发展过程中;有些人还对业务驱动还是技术驱动的第一驱动力产生了兴趣,曾经在数据仓库板块发动了一场轰轰烈烈的辩论;新概念只能是为了吸引新的用户群体发展客户群来用的,不管怎么数据仓库的本质没有改变。
 
说了这么多,那数据仓库究竟是什么呢?
数据仓库定义为 “ 一个面向主题的、集成的、随时间变化的、非易变的用于支持管理 的决策过程的数据集合 ” 。也就是说数据仓库是个数据集合,它的载体依然是数据库,不过和大多数联机在线系统( OLTP )在目标用途特性上已经有了本质的区别。
联机事务 处理系统 (OLTP) ,也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间。 OLTP 系统的主要特点就是事务处理、面向应用、反映当前情况。
    数据仓库的目的则是为了解决在信息技术 (IT) 发展中存在的拥有大量数据、然而有用信息贫乏 (Data rich-Information poor) 的问题。如何把数据转换成信息,进一步把信息转换成知识的过程。数据仓库的特点则是面向主题、集成性—企业数据框架、历史性、稳定性。
   说到底数据仓库不是一门纯粹的技术,不是数据库不是 OLAP 不是 ETL 甚至不是 BI 工具,从数据库角度来看,良好的物理设计和性能优化只是其手段而不是目的,数据仓库允许数据的冗余允许长时间的运行;它应该是一种体系结构,它的核心是在于对于数据的整合,通过抽丝剥茧把企业原始数据进行集成、归类、分析,从而提供了企业决策分析需要的 KPI ;同样它也是一个过程 ETL 对数据进行集成、整合、清洗、转换和加载,并在实践和与用户确认中不断的校验,其最终目标是为了达到整合企业信息信息,提供决策支持。
 
    因此数据仓库本身应该包括两个问题:逻辑结构和物理结构物理的就是数据仓库架构问题,一套好的解决方案应该是有弹性的, ODS 区、明细数据数据区、汇总数据区(也叫事实表);以及数据库、 OLAP 、报表工具、 ETL 处理一个都不能少;数据库作为数据仓库的载体,而且是超大数据集合的存储,其性能和分层设计自然是重中之重; OLAP 关系到多维立方体和数据的展现效率和效果;报表工具是用户的门户,良好的用户体验也是系统的关键; ETL 呢是数据仓库最为关键的地方。 ETL 既可以是纯粹的数据库脚本也可以是 ETL 工具本身的可视化界面, ETL 工具本身提供了屏蔽各个异构系统之间的复杂接口,提供了集成转化抽取装载的一致化接口,甚至提供了性能优化的途径,也相应的也减化和弱化了 DBA 的工作。当然 ETL 工具的优化无论如何也比不上 DBA 的优化结果。某种程度上仍然需要数据仓库 DBA 的参与。
 
    逻辑的主要是指业务问题,如果只是数据迁移和数据的集中,达不到决策支持的目标,便失去了数据仓库的意义,因此业务问题才是数据仓库项目成败最重要的关键环节,所以必须有商务领域知识专家、 IT 专家的角色 ( 就是通常所说的咨询顾问 ) 和甲方的积极参与,这些人往往具备比较资深的行业背景,具备丰富的独立实施该行业信息系统建设的经验,了解该行业最先进和通用的标准和规范,同时在结合现有企业信息系统的基础上,以及融合企业发展战略的基础上,提出当前企业的业务模型,来帮助企业提高决策支持分析能力。这一点我不是行业专家,不敢谈及太多。
 
    年会的时候, Sybase 公司的卢总找 flywolf2000 和我谈起邀请 Ralph Kimball 来华授教的问题,想通过 itpub 了解和调查一下用户可接受的前景,毕竟邀请大师来也是一笔不小的费用。如果能和 it168 联合举办也不失为宣传 it168 和 itpub 的一种策略,至于其他的论坛还没有足够的财力来支撑这笔联办费用。 Infosys 曾经邀请过数据仓库的鼻祖 Bill Inmon 到印度培训了两周,留下了很多的宝贵资料。在我看来他们没有什么本质的区别,只是细节和实施方法上有些差别而以,大概是因为我读的书确实不够多的缘故。
 
    尽管数据库和数据仓库本质上和要求是不同的,而令我感到惭愧的是我工作了很多年, Oracle 从使用到现在也经历了 8 个春秋了,却还不如那些论坛里面学了 2 年 Oracle 的人厉害,也许 Oracle 数据库管理确实不是我的专长,但是学好数据库无论如何对数据仓库的物理架构设计还是有着至关重要的影响的,有一技之长总是好的,像我总是飘忽在博而不精、杂而不专的陷阱之中;我希望能够像各位 Oracle 牛人学习,并在此再向那些深耕于 Oracle 的 DBA 表示深深的敬意!
 





本文转自baoqiangwang51CTO博客,原文链接:http://blog.51cto.com/baoqiangwang/309747 ,如需转载请自行联系原作者
相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4月前
|
存储 人工智能 NoSQL
杭州悦数成立「悦数图技术陆家嘴数据智能研究院」入驻上海「双城辉映」平台
2023年12月15日,杭州悦数科技有限公司(以下简称“杭州悦数”)在上海成立悦数图技术陆家嘴数据智能研究院,正式入驻陆家嘴金融城双城辉映会客厅。杭州悦数将与陆家嘴双城辉映会客厅深度合作,依托平台方陆家嘴金融城和张江科学城在科技、产业、金融方面的高水平支持,打造基于图技术(Graph Technology)和人工智能(AI)的前沿数据技术研究院,研究和构建下一代数据智能技术,赋能企业和机构的数据价值生产能力。
|
存储 Cloud Native OLAP
喜报!阿里云自研云原生数据仓库AnalyticDB获颁浙江省科学技术奖成果产业化奖励
2021年4月28日,杭州市制造业高质量发展大会召开,并公布《2020年全市制造业高质量发展重点奖项目录》。阿里云自研云原生数据仓库AnalyticDB因曾荣获2019年浙江省科技进步一等奖,再次入选科技创新类省级科学技术奖成果产业化项目。
1231 0
喜报!阿里云自研云原生数据仓库AnalyticDB获颁浙江省科学技术奖成果产业化奖励
|
存储 SQL 消息中间件
印度最大在线食品杂货公司Grofers的数据湖建设之路
作为印度最大的在线杂货公司的数据工程师,我们面临的主要挑战之一是让数据在整个组织中的更易用。但当评估这一目标时,我们意识到数据管道频繁出现错误已经导致业务团队对数据失去信心,结果导致他们永远无法确定哪个数据源是正确的并且可用于分析,因此每个步骤都会咨询数据平台团队,数据平台团队原本应该提供尽可能独立地做出基于数据的正确决策而又不减慢速度的工具。
103 0
|
存储 Cloud Native 数据管理
【预约直播】2022全球数据湖峰会盛大启幕
【预约直播】2022年3月31日 全球数据湖峰会盛大启幕
878 0
【预约直播】2022全球数据湖峰会盛大启幕
湖北宜昌用大数据为企业“画像”增信
近日,湖北宜昌市得心实用气体有限公司总经理朱延忠通过网上金融服务大厅“企贷通”平台申请200万元续贷,当日下午湖北银行客户经理方超“接单”。随后,朱延忠成功提款。如此便捷高效令朱延忠感叹,这在以前想都不敢想。如今,湖北宜昌探索建设网上金融服务大厅,用政务数据为企业“画像”增信,让银行实时对接放贷,畅通银企对接渠道,创新金融服务实体经济新模式。小微企业面临的融资难、融资贵等问题得到缓解。
|
监控 大数据
【数道云大数据】大数据平台哪一个好用?武汉2019年大数据平台排行版?
企业在选择大数据平台的时候考虑的第一要素就是—符合我们企业自身的内在需求,能够帮助企业在这个互联网的时代站住脚步,能够帮助企业对已存在的批量数据进行一个集中地存储、分析、管理。
1757 0
|
机器学习/深度学习 人工智能 分布式计算
阿里云英国大区开服,大数据计算产品首期上线
外媒文章称,阿里云在英国大区设立数据中心,进一步为欧洲市场提供服务。这也意味着,阿里云与亚马逊云服务(AWS)、微软云服务(Azure)和谷歌在欧洲的竞争即将加剧。
2438 0
|
人工智能 分布式计算 监控
大数据计算成都峰会—开启西南大数据新洞察
你的业务数据还在沉睡吗? 如何让数据发挥更大的价值? 数据是企业无价之宝,上云真能保证安全吗? 如何省去自建环境、省去运维,快速实现大数据平台落地,更多聚焦于业务? 我的业务离数据智能有多远?
3418 0
|
大数据 流计算
洞察数据,洞见未来——6.15流计算杭州峰会重磅来袭
阿里云流计算(Alibaba Cloud StreamCompute)是一个一站式、高性能、稳定、易用的流式大数据处理平台,通过它,您可以快速搭建具有亿级QPS处理能力的流式大数据系统。 流计算团队将于6月15日(13:10-17:00点)在西溪园区举办阿里云流计算杭州峰会,聚焦实时大数据处理,邀请阿里云流计算客户和阿里集团内客户深入分享基于阿里云进行大数据处理的解决方案、最佳实践、开发实战等内容,并侧重交流阿里云流计算产品以及业务场景,解决遇到的计算难题。
1913 0