大数据迁移上云厂家 WANdisco 产品技术分析

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 最近在做数据湖产品和客户项目,遇到要把客户线下大数据存储搬迁上云,特别是存储到数据湖存储 OSS 的场景。尽管OSS团队提供了闪电立方离线迁移设备、在线迁移服务,但是针对大数据场景的适配还是发现需要优化的地方。业界大数据迁移上云厂家 [WANdisco ](https://wandisco.com/),提供了线下 Hadoop 大数据迁移上云的产品,值得分析和学习。## 一、厂家介绍官网介绍

最近在做数据湖产品和客户项目,遇到要把客户线下大数据存储搬迁上云,特别是存储到数据湖存储 OSS 的场景。尽管OSS团队提供了闪电立方离线迁移设备、在线迁移服务,但是针对大数据场景的适配还是发现需要优化的地方。业界大数据迁移上云厂家 WANdisco ,提供了线下 Hadoop 大数据迁移上云的产品,值得分析和学习。

一、厂家介绍

官网介绍核心能力是 分钟级迁移任何规模数据到任意云(Start migrating your data lake in minutes, at any scale, to any cloud),典型特点:

  • 无中断的云迁移(Cloud Migration without disruption)。通过 LiveData Migrator 产品实现迁移上云,无需担心业务连续性。
  • 混合云统一体验(Hybrid Cloud without gaps)。将专有云和公共云拉通为统一的集成运维,易使用、性价比高。
  • 无缝的多云方案(Multi Cloud without compromise)。通过 LiveData Platform 产品实现可以实现跨云、跨地域的数据访问。

采用 Gartner 的总结,WANdisco 公司的 LiveData 产品系列,提供了PB级的数据迁移能力,并且保障生产业务无中断,也保证无数据丢失风险。

二、架构和平台

WANdisco 公司的核心是 LiveData Platform 软件平台,它支持数据全球分布,但不会因此降低数字传输速度。该平台的核心目的是 保护投资(Protect your investment,No downtime, no outages, and no risk with guaranteed near-zero RTO and RPO)、IT生态转型(Transform your IT economics,Create a bedrock for performance by fully utilizing hardware previously reserved for backup and recovery)、打破历史限制(Break through legacy constraints,Put all your data to work for the business and innovate without worrying that your IT investments will be left behind)。
LiveData 战略目标是让数据全球可访问并且跨地域一致,缓解数据孤岛的挑战,始终保证企业数据在全球IT环境下的准确性、访问性、一致性,支持用户和应用始终拥有可用的数据,而无需担心全球位置,数据平台架构,以及云供应商地层依赖。其核心架构,如下图所示。
WANdisco LiveData Platform

  • 核心引擎包含 5 个部件:连接Hadoop和对象存储(Hadoop & Object Storage Connectivity)、协调引擎(Coordination Engine)、安全(Security)、接口(Interfaces/APIs)、管理界面(Web UI)。
  • 大数据关键的 4 个插件:Hive Plugin、Ranger Plugin、Sentry Plugin、Backup Plugin。
  • 支持的 3 个产品:LiveData Migrator(迁移数据、元数据)、LiveData Plane(专有云、公共云的数据复制)、LiveData for MultiCloud(跨多云的数据一致性)。

三、产品文档分析

WANdisco 按产品维度提供了各版本的 文档,可以方便的了解技术内容。

3.1 LiveData Migrator 产品介绍

  • 支持数据迁移。数据源端包括:HDFS、S3、IBM COS and local storage,数据目标端包括:ADLS Gen2、Amazon S3、Google Cloud Storage、IBM Cloud Object Storage 和 HDFS。
  • 支持元数据迁移。元数据源端包括:Apache Hive、AWS Glue Data Catalog,数据目标端包括:Apache Hive、Azure SQL DB、AWS Glue Data Catalog、Databricks、Google Dataproc 和 Azure Snowflake。
  • 典型功能:数据迁移、备份和恢复(Back and Restore)、迁移验证(Migration Verifications)。

3.2 LiveData Plane (Fusion) 产品介绍

产品核心技术是 协调引擎,它使用 consensus 技术保证 Hadoop 和对象数据的访问性、准确性、一致性,其典型优势为统一协调数据变更(Coordinates changes to data)、降低时延(Minimizes latency)、容错能力(Eliminates points of failure)、自修复功能(Self-healing)、多向复制(Multi-directional replication)、支持 Hadoop 文件系统&对象存储&Hive&安全元数据、支持多种网络(LAN, WAN, public and private clouds)。
LiveData Plane 复制逻辑

3.3 LiveData Platform for Azure 产品介绍

为了更好的适配 Azure 环境,LiveData Platform for Azure 提供该支持。通过该公司的 Distributed Coordination Engine 支持所有环境到 Azure 的适配,包括专有云、混合云、多地域、多云等环境。
LiveData Platform for Azure

3.4 LiveData for MultiCloud 产品介绍

针对对象存储服务,提供跨云的数据复制。目前支持S3、Azure Blob的对象存储,并提供数据一致性监测、修复工作。
MultiCloud

LiveData for MultiCloud provides LiveData replication across different types of object storage services. It combines the functionality and, going forward, replaces the Plugins for Live S3 and Live Azure Blob Storage. It brings the added benefit of support for the coordination of activities between Fusion zones that reference underlying object storage services that do not use the same interface in each zone.

3.5 插件能力

Apache 开源组件 Sentry,该组件提供了策略管理能力。

3.6 Access Control Plus 产品介绍

该产品提供易用、图形化点击实现的源代码控制机制,它能够和 LDAP、AD 集成,帮助管理代码。同时,针对 Gerrit 提供了 Gerrit Multisite工具、针对 Git 提供了 Git Multisite、针对 SVN 提供了 SVN Multisite Plus

四、小结

通过对 WANdisco 的产品和技术分析,可见就数据迁移本身和阿里云的闪电立方、数据迁移并没有太多差异化的东西。其亮点是在大数据生态下和开源组建 Hive、Ranger、Sentry 的支持,从而能够平滑切入存量 Hadoop 业务。同时通过和 AWS S3、Azure Blob、Databricks Delta Lake 定的兼容适配,支撑了多云能力。最后,在用于 Gerrit、Git、SVN 场景下也给出了最佳实践。
特别是针对大数据生态的适配,对于 OSS 支持数据湖还是有不少的借鉴意义和行动指导。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3天前
|
数据采集 分布式计算 大数据
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计。它支持Python接口,充分利用MaxCompute的大数据资源,提升大规模数据分析效率。本文分享了MaxFrame在分布式Pandas处理和大语言模型数据预处理中的最佳实践,展示了其在数据清洗、特征工程等方面的强大能力,并提出了改进建议。
29 13
|
2天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
15 2
|
3天前
|
机器学习/深度学习 分布式计算 数据处理
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame 产品评测报告
17 4
|
7天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
5天前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
38 4
|
16天前
|
SQL 运维 大数据
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。
|
25天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
62 4
|
26天前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
34 4
|
2天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
29 0
|
15天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
下一篇
DataWorks