用好阿里云分析型数据库大存储实例,大幅降低大数据应用成本

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 在企业的业务中,经常拥有海量的历史结构化数据,虽然不会高频度的使用,但是不排除会不定期的被检索、查询(检索频率一般在100-1000次每天)。如物联网、交易历史详单查询、监控/日志数据检索等场景。这时企业需要廉价的存储计算方案,但是又不能将数据存储于离线计算系统或归档到对象存储系统,就需要使用分析.

在企业的业务中,经常拥有海量的历史结构化数据,虽然不会高频度的使用,但是不排除会不定期的被检索、查询(检索频率一般在100-1000次每天)。如物联网、交易历史详单查询、监控/日志数据检索等场景。这时企业需要廉价的存储计算方案,但是又不能将数据存储于离线计算系统或归档到对象存储系统,就需要使用分析型数据库的大存储实例了。

SATA、SSD、内存分析混合存储,提供低廉的存储成本(不同规格从0.093元/GB/天到0.051元/GB/天),仅为分析型数据库高性能实例的1/10,而又通过先进的动态二级缓存和分段索引技术提供相对较好的查询检索性能以及与高性能实例等同的数据与服务可用性。

大存储实例工作原理

分析型数据库每一个大存储实例配备内存、SSD缓存和使用SATA盘的分布式存储三级存储设备。用户的数据存储在SATA盘上,具有极低的存储成本。根据用户的查询频度以及获得多个专利的智能缓存算法,分析型数据库将用户高频查询或影响查询性能的关键数据自动换入到SSD缓存甚至内存中以加速用户查询。因此使用大存储实例时用户会发现一份数据前两三次查询较慢,但是随后查询速度便会快了很多,方便用户使用针对历史数据检索后再进行详细研判分析的应用。

另外用户若使用实时写入表,当天写入(一般是前一天20:00至当天20:00,实为未经optimize table的增量数据部分)的数据全部暂存于SSD中,每日自动的optimize table运行后会刷到SATA存储上。

大存储实例适合IO数据量和并发量较低的查询,如筛选率很高的历史数据检索等场景,在一次查询IO较多的情形(如大量数据进行join、全表group by、全表排序等)性能较高性能实例有比较大的差别。另外集群的网络规格会对大存储实例的性能有较大的影响,例如s1n/s2n实例采用双万兆网集群,性能较采用千兆网集群的s1/s2实例好3-5倍。

大存储实例主要应用场景

  • 企业海量历史库,如订单流水、GPS轨迹分析、电信话单检索、日志分析、监控数据检索、物联网传感器数据检索等;
  • 和分析型数据库高性能实例结合使用,近期高频度查询的数据放置在高性能实例(使用最大二级分区数功能管理保存的天数),全量历史数据放置在大存储实例中,应用程序通过用户选择的时间区间确定查询的数据库连接,以同一份代码兼得高性能查询和历史数据低成本存储。

大存储实例应用实战

企业内部BI系统

企业内部BI系统通常具有热点数据集中(近期数据或一段时间内要集中研究的数据集),整体并发较低,对查询响应时间的要求通常也不是很苛刻。所以在成本敏感的情况下,可以全部是使用分析型数据库大存储实例,获得很高的性价比。

基于分析型数据库以及其他阿里云、阿里云"数加"系列产品搭配,提供了企业内部BI的完整解决方案:

1

可以看到阿里云提供了从数据采集、同步,到可视化大屏、BI报表、以及灵活构建用户的CRM/DMP等基于客户维度的分析场景(使用画像分析作为中间件构建)。

冷热数据分离的在线业务系统

大部分大数据业务系统,都具有依时间来区分数据冷热的特征。例如最近3个月的数据是热数据,有很高的查询并发,并且需要很快速的查询响应时间。而三个月之前的数据均是冷数据,可能有累计多年的数据,极少查询但是又不能不提供查询。

这时就可以同时使用分析型数据库的高性能、大存储两个实例,数据同步时双写这两个实例,而利用分析型数据库提供的表最大二级分区数功能,以日期作为大表的二级分区列并在两个实例的表中设置不同的二级分区数(例如高性能实例表90,大存储实例表365),分析型数据库就会自动淘汰超过日期的对应数据,保证高性能实例只有最近90天,大存储实例存储最近一年的数据。

2

分析型数据库的高性能实例和大存储实例的SQL支持完全相同,前端应用只需要根据用户点选的时间区间来决定使用哪一个实例即可,不需要对查询SQL做任何修改,就可以兼得热点数据的高速查询和历史冷数据的低成本存储。

根据业务适配区分存储模式的综合应用

还有一种应用场景是,根据不同的应用类型,选择不同的实例进行处理,这在专有云中非常常见。例如以查询返回列不多(20列以内)的多条件明细查询为主的应用,就比较适合大存储实例(前提是并发不高)。而进行大量的join、union(all)、group by的应用,例如综合研判、复杂的报表或其他高并发要求的应用就比较适合高性能实例。

大存储实例规格说明和定价

47F012A2_0A7E_4B52_87DB_6846F2A31C54

阿里云分析型数据库产品详情:https://www.aliyun.com/product/ads

更多精彩活动:【有“福”同享.第二季】每日一分享,虚机邮箱免费用

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
2天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
2天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
15 2
|
29天前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据生态圈体系
阿里云大数据计算服务MaxCompute(原ODPS)提供大规模数据存储与计算,支持离线批处理。针对实时计算需求,阿里云推出Flink版。此外,阿里云还提供数据存储服务如OSS、Table Store、RDS和DRDS,以及数据分析平台DataWorks、Quick BI和机器学习平台PAI,构建全面的大数据生态系统。
68 18
|
1月前
|
存储 算法 固态存储
大数据分区优化存储成本
大数据分区优化存储成本
31 4
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
2月前
|
人工智能 分布式计算 数据管理
阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别
国际数据公司( IDC )首次发布了《IDC MarketScape: 中国实时湖仓市场 2024 年厂商评估》,阿里云在首次报告发布即位居领导者类别。
|
2月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
2月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
243 0
|
3月前
|
存储 机器学习/深度学习 监控
阿里云 Hologres OLAP 解决方案评测
随着大数据时代的到来,企业面临着海量数据的挑战,如何高效地进行数据分析和决策变得尤为重要。阿里云推出的 Hologres OLAP(在线分析处理)解决方案,旨在为用户提供快速、高效的数据分析能力。本文将深入探讨 Hologres OLAP 的特点、优势以及应用场景,并针对方案的技术细节、部署指导、代码示例和数据分析需求进行评测。
139 7
|
3月前
|
运维 数据挖掘 OLAP
阿里云Hologres:一站式轻量级OLAP分析平台的全面评测
在数据驱动决策的今天,企业对高效、灵活的数据分析平台的需求日益增长。阿里云的Hologres,作为一站式实时数仓引擎,提供了强大的OLAP(在线分析处理)分析能力。本文将对Hologres进行深入评测,探讨其在多源集成、性能、易用性以及成本效益方面的表现。
168 7

相关产品

  • 云原生数据仓库AnalyticDB MySQL版
  • 下一篇
    DataWorks