AtomData结合阿里云分布式存储实现海量数据分析(一)

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测可视化 Grafana 版,10个用户账号 1个月
简介: AtomData结合阿里云分布式存储实现海量数据分析(一)

云原生实时数仓-AtomData结合阿里云分布式存储实现海量数据分析(一)

嘉宾信息

王博

杭州石原子科技AtomData技术负责人


AtomData结合阿里云分布式存储实现海量数据分析(一)


内容介绍

一、 AtomData产品定位

二、 AtomData产品架构

三、 AtomData三大优势

四、AtomData产品特点

五、AtomData的技术架构

六、 适用场景

七、 高弹性、高性能海量数据存储方案

八、 适配阿里云分布式存储收益

九、AtomData 23年路标


研究背景:

我是石原子科技公司的技术负责人研究的是技术的架构和适用的场景,包括如何云阐述分析场景下的优势。


一、AtomData产品定位

image.png

第一个,我们产品的定位在常规的大数据,我们一般把数仓分为三层,第一层是处理层,它一般是由hadoop和这种大数据存储和计算组件的产,他承担着主数据的存储和计算功能,另外还分为负责对于速度的存取,包括一些实时数据的实数据的存储和更新,还分为了服务层,它负责对于企业在实时数据查询的需求,一般是由和es来承接,对这这种三层架构的这种大数据体系来说,整个架构是比较复杂的,它的灵活性和它的这个实施的敏捷度是比较低的。一般来说是t加一的模式,做好之后,把数据导入到层去,做数据的支持的服务,生命层一般有多种数据库可以用户去,比如,可以去处理场景下面的数据的多分析的问题,去处理k的数据结构的点的问题,去做了基于画像的分析,这种多维多维度的数据报表聚合的查询,对于这种复杂的大数据体系,可以作为大数据体系上面的服务层的这种解决方案能够去实时的,去实时的去存储用户的实时写入的数据和实时更新的数据,能够实时的为企业去做查询和分析,还可以去作为数据库去同时替换,包括速度,服务在用户体量在pb级别到p级别以内,在他没有非常强的这种结构处理处理需求的时候的业务逻辑相对比较简单的时候,以通过替换掉层去做数据离线数据的处理和加工塔,Mysql和双写的,它可以用mysql协议去接入用户的数据的需求,数据需求也可以利用大数据计算框架去利用协议去接入数据库,去做大规模的数据计算。

另外,它还可以支持纯算耦合的式分部署方式,这两种方式可以针对两种用户场景,在用户在用户的数据存储和数据计算需求比较固定的情况下,它可以用存上耦合的方式去部署数据库,去做数据的存储和计算。

当用户的数据存储需求和计算需求是浮动的时候,它可以用存算分离的方式去部署,利用新的能力去应对存算和计算的不同时段的需求。

另外,它还可以支持结构化和数据的存储,存储和分析,支持时空的数据,支持从到p级的数据的分析和存储需求景架构。


二、AtomData产品架构

image.png

 我们可以把它点燃的分为几块,从底层的就设施来看,它适配了业界主流的,配了主流的一些国产的一些操作系统,也适配了阿里云,华为云,腾讯云之类的这种云平台,从核心组件来看,它分成引擎层,任务管理层和通信协议层,在引擎层,我们有自己的列表引擎以及外表引擎。外表引擎,可以去连接像os hfql短的外表引擎,

是我们一个纯引擎,我们后面讲解会详细的讲到,这种管理层,包括可以去管理数据上的数据的采样,包括离线作业的这个调度,包括构建的一些管理和资源的一些管理,在通协议层,我们支持mysl协议,企业级特性里面我们做了蛮多的功课,包括我们可以用户可以去支持自定义的这个副数量,以及去对接以对接分布式文件存储,这储设已经去支持,可以去实现层的这个高可用,包括我们可以在前面去前置一个,负展均衡,去实现r c阶层的连接,连接的均衡包括可以支持量的以及增量的这种实施备份包括说容同层。另外我我们做了一个可视化的一套界面,帮助用户去更好的去管理,运维它的的集群可视化管理,今天我们可做库表级别的管理,这个对标一般常见的系统可以去做管理,数据库的管理以及用户的管理,包括可以通过我们的可视化理工具做数据恢复,以常规常规运维和巡高塔具有明显的优势。


三、AtomData三大优势

image.png

第一个是复杂分析能力比较强,另外一个块是他的性价比较高,我们的整体的部署集群和部署组件来说是比较紧凑的,不需要投入过多的外部,不需要投入的过多的工程师。
另外,同时具备能力使得数据加工的过程比较短,整个仓的建设周期比较短,另外产品是比较维护,综合成本比较低,另外一个特是使用我们是兼q,l协议的所有的标准的数据库连接工具,数据库管理工具,包括数据的抽取,加工,调度以及di的工具都可以很轻易的连接到我们数据库。支持对多种的数据源,包括我们有深度的配了hs os以及myq,这我们都支持,另外就是由我们的金融mysql生态,所以说上下游的这个生态,上下游工具我们接的比较多,像常见的工具我们都是有兼容的。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
机器人
阿里云 RPA 的成本效益分析
机器人流程自动化(RPA)技术在企业数字化转型中扮演着越来越重要的角色。阿里云 RPA 作为一种高效的自动化解决方案,不仅可以提高业务效率,还可以降低运营成本。本文将对阿里云 RPA 的成本效益进行分析,帮助企业更好地评估和利用这一技术。
|
3月前
|
存储 缓存 NoSQL
【分布式】Redis与Memcache的对比分析
【1月更文挑战第25天】【分布式】Redis与Memcache的对比分析
|
29天前
|
设计模式 安全 Java
【分布式技术专题】「Tomcat技术专题」 探索Tomcat技术架构设计模式的奥秘(Server和Service组件原理分析)
【分布式技术专题】「Tomcat技术专题」 探索Tomcat技术架构设计模式的奥秘(Server和Service组件原理分析)
33 0
|
1月前
|
数据库
阿里云DTS数据迁移和数据同步的差异性分析
阿里云DTS作为一款常用的数据库表迁移工具,提供了功能非常类似的两个功能:数据迁移、数据同步。阿里云DTS产品官网对这两个功能模块进行了简单的区分: 场景1:存量数据批量迁移,建议使用数据迁移功能。 场景2:增量数据实时同步,建议使用数据同步功能。 实际上,无论是数据迁移还是数据同步,都可以做 “结构初始化”+“全量数据迁移”+“增量迁移”,因此两者功能差异并不明显。笔者在多个项目实践DTS数据迁移,在简单需求场景下,将DTS的数据迁移、数据同步进行对比和总结。
|
29天前
|
存储 Java 应用服务中间件
【分布式技术专题】「架构实践于案例分析」盘点互联网应用服务中常用分布式事务(刚性事务和柔性事务)的原理和方案
【分布式技术专题】「架构实践于案例分析」盘点互联网应用服务中常用分布式事务(刚性事务和柔性事务)的原理和方案
52 0
|
29天前
|
缓存 应用服务中间件 数据库
【分布式技术专题】「缓存解决方案」一文带领你好好认识一下企业级别的缓存技术解决方案的运作原理和开发实战(多级缓存设计分析)
【分布式技术专题】「缓存解决方案」一文带领你好好认识一下企业级别的缓存技术解决方案的运作原理和开发实战(多级缓存设计分析)
34 1
|
2月前
|
存储 运维 关系型数据库
规划阿里云RDS跨区迁移业务需求业务影响分析
规划阿里云RDS跨区迁移业务需求业务影响分析
25 4
|
3月前
|
存储 关系型数据库 分布式数据库
阿里云PolarDB解决乐麦多源数据存储性能问题
乐麦通过使用PolarDB数据库,使整个系统之间的数据查询分析更加高效
390 3
|
3月前
|
存储 NoSQL MongoDB
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
本文整理自阿里云 Flink 团队归源老师关于阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference 的研究。
46940 2
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
|
3月前
|
存储 Kubernetes 监控
阿里云分布式云容器平台
阿里云分布式云容器平台(ACK One)是一款面向混合云、多集群、分布式计算、容灾等场景推出的企业级云原生平台。它支持连接并管理任何地域、任何基础设施上的Kubernetes集群,提供一致的管理和社区兼容的API,支持对计算、网络、存储、安全、监控、日志、作业、应用、流量等进行统一运维管控。
49 4

热门文章

最新文章

  • 1
    Serverless 应用引擎产品使用之在函数计算中,数据库访问失败如何解决
    8
  • 2
    Serverless 应用引擎产品使用之在阿里云函数计算中发现没有NAC(Native Application Component)选项,且无法自己上传MOD(模块)如何解决
    9
  • 3
    Serverless 应用引擎操作报错合集之在阿里云函数计算中,调用了FC函数但是没有执行或者报错,并且在FC函数后台也看不到调用记录日志如何解决
    9
  • 4
    Serverless 应用引擎操作报错合集之在阿里函数计算中,sd部署启动报错CAExited 报错信息“operation not permitted”如何解决
    6
  • 5
    Serverless 应用引擎操作报错合集之在阿里函数计算中,SD Controlnet Depth 运行过程中出现错误“urllib3 v2.0 only supports OpenSSL 1.1.1+”如何解决
    8
  • 6
    Serverless 应用引擎操作报错合集之在阿里云函数计算中,laravel zip包使用示例的start.sh脚本启动时出现错误代码如何解决
    9
  • 7
    Serverless 应用引擎操作报错合集之在阿里云函数计算中,服务器调用FC函数时出现 "[Errno -3] Temporary failure in name resolution)" 错误如何解决
    7
  • 8
    Serverless 应用引擎操作报错合集之在Serverless 应用引擎中,部署过程中遇到错误代码如何解决
    11
  • 9
    Serverless 应用引擎操作报错合集之在 Serverless 应用引擎中,遇到“没法通过 head 传递灰度标识”如何解决
    10
  • 10
    Serverless 应用引擎操作报错合集之在阿里函数计算中,函数执行超时,报错Function time out after如何解决
    12