大数据迁移上云厂家 WANdisco 产品技术分析

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 最近在做数据湖产品和客户项目,遇到要把客户线下大数据存储搬迁上云,特别是存储到数据湖存储 OSS 的场景。尽管OSS团队提供了闪电立方离线迁移设备、在线迁移服务,但是针对大数据场景的适配还是发现需要优化的地方。业界大数据迁移上云厂家 [WANdisco ](https://wandisco.com/),提供了线下 Hadoop 大数据迁移上云的产品,值得分析和学习。## 一、厂家介绍官网介绍

最近在做数据湖产品和客户项目,遇到要把客户线下大数据存储搬迁上云,特别是存储到数据湖存储 OSS 的场景。尽管OSS团队提供了闪电立方离线迁移设备、在线迁移服务,但是针对大数据场景的适配还是发现需要优化的地方。业界大数据迁移上云厂家 WANdisco ,提供了线下 Hadoop 大数据迁移上云的产品,值得分析和学习。

一、厂家介绍

官网介绍核心能力是 分钟级迁移任何规模数据到任意云(Start migrating your data lake in minutes, at any scale, to any cloud),典型特点:

  • 无中断的云迁移(Cloud Migration without disruption)。通过 LiveData Migrator 产品实现迁移上云,无需担心业务连续性。
  • 混合云统一体验(Hybrid Cloud without gaps)。将专有云和公共云拉通为统一的集成运维,易使用、性价比高。
  • 无缝的多云方案(Multi Cloud without compromise)。通过 LiveData Platform 产品实现可以实现跨云、跨地域的数据访问。

采用 Gartner 的总结,WANdisco 公司的 LiveData 产品系列,提供了PB级的数据迁移能力,并且保障生产业务无中断,也保证无数据丢失风险。

二、架构和平台

WANdisco 公司的核心是 LiveData Platform 软件平台,它支持数据全球分布,但不会因此降低数字传输速度。该平台的核心目的是 保护投资(Protect your investment,No downtime, no outages, and no risk with guaranteed near-zero RTO and RPO)、IT生态转型(Transform your IT economics,Create a bedrock for performance by fully utilizing hardware previously reserved for backup and recovery)、打破历史限制(Break through legacy constraints,Put all your data to work for the business and innovate without worrying that your IT investments will be left behind)。
LiveData 战略目标是让数据全球可访问并且跨地域一致,缓解数据孤岛的挑战,始终保证企业数据在全球IT环境下的准确性、访问性、一致性,支持用户和应用始终拥有可用的数据,而无需担心全球位置,数据平台架构,以及云供应商地层依赖。其核心架构,如下图所示。
WANdisco LiveData Platform

  • 核心引擎包含 5 个部件:连接Hadoop和对象存储(Hadoop & Object Storage Connectivity)、协调引擎(Coordination Engine)、安全(Security)、接口(Interfaces/APIs)、管理界面(Web UI)。
  • 大数据关键的 4 个插件:Hive Plugin、Ranger Plugin、Sentry Plugin、Backup Plugin。
  • 支持的 3 个产品:LiveData Migrator(迁移数据、元数据)、LiveData Plane(专有云、公共云的数据复制)、LiveData for MultiCloud(跨多云的数据一致性)。

三、产品文档分析

WANdisco 按产品维度提供了各版本的 文档,可以方便的了解技术内容。

3.1 LiveData Migrator 产品介绍

  • 支持数据迁移。数据源端包括:HDFS、S3、IBM COS and local storage,数据目标端包括:ADLS Gen2、Amazon S3、Google Cloud Storage、IBM Cloud Object Storage 和 HDFS。
  • 支持元数据迁移。元数据源端包括:Apache Hive、AWS Glue Data Catalog,数据目标端包括:Apache Hive、Azure SQL DB、AWS Glue Data Catalog、Databricks、Google Dataproc 和 Azure Snowflake。
  • 典型功能:数据迁移、备份和恢复(Back and Restore)、迁移验证(Migration Verifications)。

3.2 LiveData Plane (Fusion) 产品介绍

产品核心技术是 协调引擎,它使用 consensus 技术保证 Hadoop 和对象数据的访问性、准确性、一致性,其典型优势为统一协调数据变更(Coordinates changes to data)、降低时延(Minimizes latency)、容错能力(Eliminates points of failure)、自修复功能(Self-healing)、多向复制(Multi-directional replication)、支持 Hadoop 文件系统&对象存储&Hive&安全元数据、支持多种网络(LAN, WAN, public and private clouds)。
LiveData Plane 复制逻辑

3.3 LiveData Platform for Azure 产品介绍

为了更好的适配 Azure 环境,LiveData Platform for Azure 提供该支持。通过该公司的 Distributed Coordination Engine 支持所有环境到 Azure 的适配,包括专有云、混合云、多地域、多云等环境。
LiveData Platform for Azure

3.4 LiveData for MultiCloud 产品介绍

针对对象存储服务,提供跨云的数据复制。目前支持S3、Azure Blob的对象存储,并提供数据一致性监测、修复工作。
MultiCloud

LiveData for MultiCloud provides LiveData replication across different types of object storage services. It combines the functionality and, going forward, replaces the Plugins for Live S3 and Live Azure Blob Storage. It brings the added benefit of support for the coordination of activities between Fusion zones that reference underlying object storage services that do not use the same interface in each zone.

3.5 插件能力

Apache 开源组件 Sentry,该组件提供了策略管理能力。

3.6 Access Control Plus 产品介绍

该产品提供易用、图形化点击实现的源代码控制机制,它能够和 LDAP、AD 集成,帮助管理代码。同时,针对 Gerrit 提供了 Gerrit Multisite工具、针对 Git 提供了 Git Multisite、针对 SVN 提供了 SVN Multisite Plus

四、小结

通过对 WANdisco 的产品和技术分析,可见就数据迁移本身和阿里云的闪电立方、数据迁移并没有太多差异化的东西。其亮点是在大数据生态下和开源组建 Hive、Ranger、Sentry 的支持,从而能够平滑切入存量 Hadoop 业务。同时通过和 AWS S3、Azure Blob、Databricks Delta Lake 定的兼容适配,支撑了多云能力。最后,在用于 Gerrit、Git、SVN 场景下也给出了最佳实践。
特别是针对大数据生态的适配,对于 OSS 支持数据湖还是有不少的借鉴意义和行动指导。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
2月前
|
存储 人工智能 大数据
云栖2025|阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级
阿里云在云栖大会发布“湖流一体”数智平台,推出DLF-3.0全模态湖仓、实时计算Flink版升级及EMR系列新品,融合实时化、多模态、智能化技术,打造AI时代高效开放的数据底座,赋能企业数字化转型。
572 0
|
3月前
|
存储 SQL 分布式计算
终于!大数据分析不用再“又要快又要省钱”二选一了!Dataphin新功能太香了!
Dataphin推出查询加速新功能,支持用StarRocks等引擎直连MaxCompute或Hadoop查原始数据,无需同步、秒级响应。数据只存一份,省成本、提效率,权限统一管理,打破“又要快又要省”的不可能三角,助力企业实现分析自由。
222 49
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
2月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
194 14

热门文章

最新文章