DorisDB 叶谦:打造新一代企业数据驱动体系

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: DorisDB 叶谦:打造新一代企业数据驱动体系
文章作者: 叶谦。现任鼎石纵横科技(DorisDB) COO,原友盟数据(后阿里收购)CEO,此前曾在“微软亚洲研究院”研究过互联网搜索引擎网页排序算法,后加入“百度”搜索新产品部,从事百度社区类产品的技术研发工作,2009年转调百度基础架构部,任项目经理,带领团队从事百度底层分布式系统、底层通用库和通用模块的研发。

近年来,数字化转型的重要性已经被越来越多的公司所认识。在十四五规划中数据已经成为和土地、劳动力、资本、技术所并列的六大要素。如何充分挖掘数据资产价值,运用各类大数据分析工具来驱动业务发展,已成为企业管理者所关注的最重要的问题之一。国际著名咨询公司麦肯锡认为,构建大数据及高级分析能力是撬动企业业务新增长最重要的杠杆之一。加大数据分析能力的建设,从企业业务的各环节入手,有助于企业整体运行效率提升。

  • 与此同时,随着产业互联网的不断升级,企业数据量的不断增长,企业的大数据分析也面临着前所未有的全新挑战:
  • 如何应对业务的快速迭代和变化,让数据分析人员更快更灵活地进行数据分析?
  • 越来越多的业务需要实时数据分析的支持,如何才能构建强大并可扩展的实时数据分析能力?
  • 随着数据驱动战略的落地,更多的业务人员需要经常查看数据报表,需要具备数据分析能力,如何才能有效支持这些业务人员的日常工作?

为了应对与日俱增的数据分析需求,数据系统不断膨胀,给后续的系统维护和升级,以及数据的统一管理带来了很大的隐患。如何才能打破这个局面,降低维护和管理的风险?

yy.png

以上这些都是当今企业管理层所面临的现实问题和挑战,本文将围绕着这些问题,和大数据分析未来的发展趋势,探讨新一代企业大数据分析体系所应具备的能力,以及如何构建这样一套现代化的大数据分析体系。


更快更灵活地分析

数据分析对于企业来说并不是新鲜的事物,但是对于数据分析“快”的追求却是近几年出现的重要趋势。这里所说的“快”包含以下两个层面的涵义:

首先,数据查询的速度要快。无论是企业的管理者还是业务的分析人员都会发现,如果一个数据报表加载展现的延时超过3秒钟,查看者就会产生一定的焦躁情绪;如果加载展现的延时超过半分钟,查看者一定不会再想看第二次。如果业务人员不愿意查看数据报表,那么数据驱动便无从谈起。很遗憾的是,绝大多数企业原有的数据分析系统,存在大量需要几分钟,甚至十几分钟才能打开的数据报表。这些报表极大降低了业务人员的工作效率和工作热情。

其次,数据报表的建设速度要快。这个特性对于高速发展的业务来说至关重要。对于这些快速迭代的业务,如何进行数据分析,从哪些维度进行分析是一个需要不断探索和改进的课题。在这个过程中,数据指标如果支持快速构建和变更,那就意味着能更快地试错,更快地找到合适的分析方式,进而加速业务的迭代,在竞争中占据先机。如果数据指标建设需要整条数据链路各个环节的修改,建设周期至少以周为单位来计算,那么数据分析必然是制约业务发展的重要因素。

另一方面,企业需要更灵活的数据分析方式来支持不断发展的业务。

传统的,基于预计算的数据分析模式已经不能满足多样化的数据分析场景。预计算模式要求业务方提前定义好分析的模式。对于没有预先定义好的分析模式无法执行。这种方式对数据分析的限制很大,对于发展变化迅速的业务,其数据分析模式经常会发生变化,如加减维度列(商品属性信息增加)、维度值发生变化(组织架构调整)等,使得预先定义好分析模式几乎是不可能的。预计算固然能够减少固定查询的计算复杂度,但是系统仅仅支持预计算模式显然是不够的。

只有能高效地支持各类型查询的现场计算,能在秒级返回结果的数据分析引擎,才能真正支持好快速发展的现代企业。


更实时地分析

随着产业互联网和移动互联网的兴起,越来越多的业务场景需要实时数据分析的支持。以往,企业的数据报表往往是“T+1”生产,大部分报表是在每一天的凌晨进行批量计算,然后在早晨8点前生成结果,以便运营人员和管理者在上班后能查看到前一天的数据。然而,这样的“隔日”数据分析模式,已经不能满足现代企业业务迭代速度的需求。

越来越多的业务场景需要对实时数据进行分析,如在线广告投放场景,业务人员需要即时了解所投放广告的效果,以及时调整投放策略,提高广告投放的ROI;实时推荐场景,业务系统需要根据用户的浏览行为,甚至地理位置等信息,以及时进行相关产品或服务推荐,提升用户体验和转化率;电商大促场景,在大促进行时,管理者需要实时了解交易量的情况,以确定下一步的促销计划;一线业务人员看报表的场景,很多企业已经给一线的业务人员配备了移动办公APP,业务人员可以通过移动APP实时查看自己的任务和业绩完成情况。

在以上这些场景中,管理者和业务人员往往不仅需要看统计后的宏观结果,也需要看各个方面的明细结果。能对实时数据进行分析,意味着管理者和业务分析人员可以更及时地了解业务情况,有机会做出更快,更准确的业务决策。整个企业的业务决策效率也会因此得到提升。


更多业务人员同时分析

当今时代的企业里,数据分析已经不再是管理层专有的能力,希望实现真正实践数据驱动业务,必须让一线的业务人员也能够高效地进行数据分析,这已经成为大量企业管理者之间的共识。

一线的业务人员在具备数据分析能力之后,能高效地根据业务数据调整自己的工作方式和工作重心。有助于一线运营效率的提升,进而提升整个公司的运营效率。而由于一线业务人员的数量远多于企业的管理层,新一代企业大数据分析体系必须是能支持多用户同时访问的。移动互联网的不断成熟,让业务人员可以很方便地使用移动APP查看业务数据。这一点对企业大数据分析体系提出了更高的要求。

真正贯彻企业数字化转型,让数据驱动业务发展,至少需要数据系统同时支撑数千人的数据分析。没有这样的能力,很难真正让数据很好的支持业务发展。


更统一的数据分析体系

对于现代企业而言,数据分析场景的多样化是一个无法回避的趋势。管理层需要功能强大的管理驾驶舱,业务人员和项目经理需要实时和丰富的报表,数据分析师需要灵活的交互式BI分析平台,审计人员希望查看全量的历史统计数据等。

为了满足这些不同场景的数据分析需求,企业的IT部门往往会引入多种不同的数据分析系统。从开源软件到商业化软件,从国内软件到国外软件,随着系统数目的增加,相关问题也会持续涌现。首先,不同的数据源会导致上层数据应用开发难度增大。由于不同场景需要对接不同的系统,开发人员和使用者的工作成本都变高了。其次,多系统必然会带来运维复杂度的指数级上升。不同系统的配置不同,扩容方式不同,日常运维的关注点也不同。系统设计到的产品越多,运维人员的压力越大。第三,不同系统必然会造成数据的冗余,并且存在数据不一致的隐患。为了规避数据不一致的问题,企业往往需要在应用层做额外的工作。

如果有一套系统能够满足多种数据分析场景的需求,那么对于企业来说,不仅能更好地支持业务发展,还能有效地降低运维和存储成本。


新一代企业数据驱动体系

通过上面的分析我们不难发现,构建新一代企业数据驱动体系的核心是:用一套统一的体系来满足企业多种数据分析场景的需求,让更多的企业成员能够同时更快、更灵活、更实时地分析数据。

从这个核心出发,DorisDB无疑是支持新一代企业数据驱动体系的较好选择。

极致的查询性能是DorisDB的第一个核心优势。绝大多数企业的数据分析查询,DorisDB都可以实现亚秒级返回结果。这将为每个查看报表的业务人员和管理者每天节省数十分钟等待时间,大大提升工作效率,全年累计可以为每位员工节省数周的工作时间!

另外,DorisDB既可以支持聚合数据查询,也能够支持明细数据查询。强大的分布式表聚合能力,使得客户的业务分析不再依赖大宽表模型。基于此搭建的数据驱动体系,可以高效地支持业务快速迭代,数据数据指标和报表的建设几乎都可以直接用SQL语句来实现,无需额外开发计算程序。报表建设时间可以缩短至小时级别,每张报表的建设成本可以从几万元降低至几百元,相对于传统方式效率可以提升几十倍!

DorisDB还可以高效地支持企业实时数据分析。DorisDB原生支持Kafka数据接入。聚合模型和现代化物化视图技术可以自动实现实时数据的预聚合,不需要单独开发任何外部程序即可实现从流式数据导入,到线上实时大屏展示的全链路逻辑。

同时,DorisDB还能支持每秒数万级别的查询并发量,帮助企业真正赋能一线的业务人员。DorisDB支持标准SQL语言,主流BI系统可以直接连接,这使得业务人员的学习成本更低,更容易上手。另外,DorisDB完善的高可用体系,极简的日常运维,智能简便的扩缩容方式,都是企业业务正常运转的有力保证。yy.png

基于DorisDB,企业可以打造一个架构简洁,但功能强大的大数据分析体系。相对于不少组件庞杂的数据中台方案,该体系更轻量,更易于维护和扩展。企业的业务数据和流量日志都可以进入该体系统一处理。

Hadoop作为大数据存储和批量处理的工业标准,用于原始数据的落地和存储。Kafka用于支持实时数据的传输。Hive,Spark,Flink作为数据加工和处理的设施,将经过清洗和处理的明细数据导入DorisDB。数据可以按照“T+1”的方式批量导入,也可以实时导入。DorisDB对明细数据进行进一步的计算,聚合,建立物化视图等处理后,便可以直接提供线上服务。上层应用可以根据自身需要,通过标准SQL语句,直接查明细数据,或者查聚合数据。查询的灵活性完全由SQL语句来提供,不需要再额外开发其他用于数据处理的程序模块。

yy.png

如果企业的数据规模不大,企业的大数据分析体系还可以进一步简化成如上图所示。企业不再需要搭建Hadoop平台,所有的原始数据都可以直接存放在DorisDB里。这样简洁的架构将极大降低企业的运维成本,并且让企业的数据分析体系更加简单。


总结

用一套统一的体系来满足企业多种数据分析场景的需求,让更多的企业成员能够同时更快、更灵活、更实时地分析数据。这已经成为企业数字化建设的一个必然趋势。只有能从小到大不断扩展,不断产出实际业务价值,并且能支持混合云方式部署的系统,才是企业真正需要的系统。DorisDB凭借其强大的性能,全面的功能和可控的总体持有成本,必将助力企业更好地支持数据驱动战略的落地,为客户实现更大的业务价值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 供应链 安全
【企业技术架构】企业自动化是下一代架构吗?
【企业技术架构】企业自动化是下一代架构吗?
|
人工智能 运维 供应链
数智洞察|产业集群数字化:构建协同发展的新生态
数智洞察|产业集群数字化:构建协同发展的新生态
1339 0
|
人工智能
发力“新一代智能工作平台”,如流要做企业智能化基础设施
发力“新一代智能工作平台”,如流要做企业智能化基础设施
514 0
发力“新一代智能工作平台”,如流要做企业智能化基础设施
|
安全 数据安全/隐私保护
安全体系也是互联网金融平台的核心竞争力
安全体系也是互联网金融平台的核心竞争力
168 0
|
存储 人工智能 边缘计算
平台体系才是工业互联网发展的关键
2012年,美国通用电气公司在提出“工业互联网”概念时,是这么说的:“工业互联网,就是把人、数据和机器连接起来”。
平台体系才是工业互联网发展的关键