《智能数据时代:企业大数据战略与实战》一3.8 内存计算

简介:

本节书摘来自华章出版社《智能数据时代:企业大数据战略与实战》一书中的第3章,第3.8节,作者 TalkingData ,更多章节内容可以访问云栖社区“华章计算机”公众号查看

3.8 内存计算

各种组织开始认识到分析数据的价值,并在努力探寻进一步提高该价值的方法。对于许多人来说,获得更高价值的途径就是提高处理的速度。发现趋势并应用算法来处理信息以形成附加价值,但前提是该分析可以实时产生结果。
然而,磁盘存储的群集和广域网连接的延迟使得通过BI解决方案很难实时取得结果。这样问题就在于实时处理所产生的价值能否抵消为追求更快技术速度而付出的额外费用。要找到这个问题的答案就必须确认实时处理的最终目标是什么,是为某个特定业务流程加快结果生成速度?满足零售交易的需求?还是获得竞争优势?
尽管原因有很多,但最终价值的多少还是要取决于获得更快处理技术在价格方面的可行性。而内存计算正符合这一需求。此外还有很多其他因素也在推动内存计算技术的采用。举例来说,《经济学家》在最近的一项研究中进行估算后得出,人类在2005年创造的信息总量约为150×260位元组,而到了2011年前述本已非常庞大的数额已经猛增到了超过1200×260位元组。
此外,据研究公司IDC(国际数据公司)估计,数字内容的总量每18个月就会翻一番。而相关非结构化数据的增长使得数据处理的复杂程度又进一步提升。事实上,研究机构Gartner预计有高达80%的企业数据都是非结构化的信息数据,其中涵盖了来自传统和非传统来源的数据。
在选择是否使用内存计算时,数据类型、数据量和数据访问速度都是影响决策的因素。然而,面对内存中处理能够为企业带来的价值,上述因素估计也无法阻挡高级内存中处理解决方案到来的潮流。
要理解内存计算在实际应用中的优势,我们必须审视迄今为止的大数据处理方式并了解当前对计算能力的物理限制,而后者要取决于访问关系数据库中的数据以及处理指令和所有其他大型数据集处理所需元素的速度。
使用基于磁盘的处理意味着涉及多个数据集或算法搜索处理的复杂计算不可能实时进行。数据科学家必须要等待几个小时到几天才能获得有意义的结果,对于讲求高效的业务流程和决策而言显然不是最佳的解决方案。
如今的企业需要以更快的速度获得结果以便以更快的速度进行决策,同时它们还可以将其余工具配合使用以更好地进行信息的访问、分析、管理和共享。所有这些都可为大数据带来更多的价值。
内存计算的使用提升了分析的速度并最终带来增值,相关技术价格的下降会使这种增值更加明显。内存系统的销售范围和每美元容量在过去数年中一直在上升,存储和处理大量数据的成本也因此得到了重新定义。
在价格下降和容量增加之后,现在企业已经可以将主数据库存储在硅基的主存储器中,这带来了指数级的性能提升并使全新应用程序的开发成为可能。而物理硬盘驱动器限制处理速度的时代也将彻底结束。
在业务决策者可以实时获得信息和分析结果的情况下,人们能够以之前无法想象的方式获得新的见解并执行业务流程。内存计算在大数据集领域的应用,代表了处理BI和业务分析的IT作业模式正在发生关键性的变革。
内存计算可以创造一个业务管理的新时代,相关的管理者将能够对复杂的数据进行实时分析,并作出决策,这种方法的主要优点如下:
数据处理的多重改进提高了数据处理的速度,扩大了数据处理的容量,相对于过去,性能有了数百倍的提升。
内存计算可应付迅速扩展的信息量,提供比传统物理磁盘存储快数千倍的访问速度。
对比基于硬盘的处理方法,内存计算在具有更好的性价比(可以抵消总成本的上升)的同时还具有实时分析这一大优势。
近年来中央处理单元和存储器的成本显著降低,再结合多核和刀片架构可以在实现数据操作现代化的同时提供可测量的结果。
利用内存计算我们得以将分析过程从成组硬盘驱动器和独立CPU转移至可以实时处理所有的日常事务、更新以及分析请求的单一综合数据库,由此也得以产生包括上述几点在内的诸多优势。
内存计算技术使我们可以在服务器的主内存计算大量交易数据并通过此类交易分析实时获得结果。
由于内存计算允许直接访问内存中的数据,获得查询结果的速度要远远高于传统磁盘仓库方法。此外,更新数据库所需的时间也显著减少,同时系统还能一次处理更多的查询请求。
由于流程速度、查询质量和业务洞察力方面的巨大改进,内存数据库管理系统的性能预期要比传统上基于磁盘的模型提升10到20倍。
尽管构成内存计算的元素早已存在,但直到现在,它们才达到可以普遍使用的程度。近年来的硬件改善和软件创新使得当今的内存计算能够在几秒钟内对大量的数据进行筛选、关联和更新。主存储器、多核处理和数据管理的技术进步共同带来了性能上的大幅进步。
内存计算可以为众多领域带来显著增益,其中最重要的是成本节约、效率提升以及改善决策的可视化速度提升。
不同规模和行业的企业都可以通过内存计算带来的成本节约中受益。目前大多数公司IT预算的25%以上都被用于数据库管理。内存计算数据库所采用的硬件系统在能耗上要远优于传统的数据库管理系统,这可以大大降低硬件和维护成本。
内存计算数据库还能减轻公司的整体IT负担并释放以前需要用于响应报告要求的资源。由于作为依据的技术已经成熟,内存计算解决方案可以无中断的方式获得实现,这样相关公司可以轻松并快速地恢复运营。
任何在经营上依赖频繁数据更新的公司都能够借助内存计算技术实现高效的运转。转向内存计算使相关公司能够从其IT架构中移除系统所需的一整个技术层级并由此降低了系统的复杂性和基础设施需求。上述简化使得几乎实时的数据检索成为可能,所有业务团队的效率也将因此得以提升。
利用内存计算,任何商业用户都可以轻易地挖掘出便于各部门调用的BI子集。工作组可以在中央数据仓库承载工作量不受影响的情况下自主作业。但也许最为关键的改进在于业务用户不再需要IT支持就可以洞悉业务数据的意义。
上述性能提升还使商业用户在旅途中能够通过自己的移动设备检索更多有用的信息。随着越来越多的企业开始将移动技术融入业务,上述功能的重要性正在不断提升。
通过以上几点可以明显看出,内存计算的出现使组织不再需要局限于在数据仓库中划分的数据子集,他们能够以更为全面的方式编译其业务数据。
借助上述数据库可视性方面的改良,企业能够从事后分析(被动)转变为实时决策(主动),并在随后创建基于预测而非响应的业务模型。企业可以从一开始就将易用的分析解决方案与分析平台配合使用并由此产生更多的价值。通过上述方法,即使没有多少专业知识的公司人员也可以构建查询条目和仪表板,由此又可能创造出很多内容方面的专家,他们无需外部支持就能自主提升行动的积极性。
对企业而言,内存计算的另一优势在于这种技术能带来信息特异性的提升,由此我们可以根据客户和企业用户的个人需求对数据元素进行定制。这样具体的部门或业务线就可以自主处理具体需求,由此产生的结果可以惠及管理链的上游和下游并为客户主管、供应链管理和财务运营带来影响。
利用内存计算技术,客户团队可以从几乎任何位置(包括办公或旅行位置以及携带的移动设备)快速轻松地组合不同的数据集并用其分析客户过去和当前的业务状况。商业用户可以使用最新的信息直接与客户进行交互;在由此创建的交互场景中业务用户可以直接与数据交互。通过实时的数据获取,业务用户能够更加了解相关情况并依此来开展销售和营销活动。而销售团队也可即时访问他们需要的信息,其掌握客户情况的能力将得到全面的提升,由此可实现更为高效的上行和交叉销售,并最大限度地提高收入增长速度。
在基于磁盘的传统系统中,数据的处理通常需要在夜间进行,这可能导致企业无法及时对重要的供应警报做出反应。内存计算技术完全解决了这个问题,因为该技术使企业能够充分掌握其供应链在每一秒钟的变化。借助上述实时洞察的能力,相关企业能够及时对不断变化的业务条件做出反应。举例来说,相关企业可以创建特定产品预存量预警和其他警报并在发生问题时从容应对。
对于财务总监来说,日益增长的数据量、数据处理不够迅速、分析延后和数据响应速度慢都会带来挑战。财务总监往往只有几天而非几个月、几个季度的时间来应对这些挑战。这可能使各方面出现延迟,而在每个财季结束时,这种情况愈加明显。然而,内存计算、大容量数据分析和灵活的建模环境可以加快财政季度结束阶段的处理速度,并在更长的期限内使更多的详细财务数据透明化。
从消费产品和零售到制造业和金融服务,任何行业的企业都能借助内存计算提升运营效率。消费品公司可以使用内存计算来管理自己的供应商、跟踪和追踪产品、管理促销互动并提供支持,以更好地遵守环境保护局的标准并对有缺陷和不合格的产品进行分析。
零售公司可以同时管理多个地点的商店运营,分析销售点的情况,执行多渠道定价分析并跟踪损坏、污染和退回的产品。制造企业可以使用内存计算保证运营绩效管理,进行生产和维护分析并开展实时资产利用研究。金融服务公司可以进行对冲基金交易分析,具体包括管理客户对货币、股票、衍生工具和其他票据的风险敞口。借助通过内存计算获得的信息,上述企业可以实时管理系统风险并根据市场交易风险提交报告。
随着大数据分析的普及,内存计算将会成为很多企业在寻求竞争优势过程中的主要依靠。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
11天前
|
JavaScript 前端开发 大数据
数字太大了,计算加法、减法会报错,结果不正确?怎么办?用JavaScript实现大数据(超过20位的数字)相加减运算。
数字太大了,计算加法、减法会报错,结果不正确?怎么办?用JavaScript实现大数据(超过20位的数字)相加减运算。
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
33 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
4天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
11 3
|
7天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。