备份界的特斯拉:解析初创公司Datos IO

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
全局流量管理 GTM,标准版 1个月
简介:

 初创公司Datos IO就像是备份界的特斯拉,针对分布式应用重新设计了数据保护,并专注于高端客户,解决特定其他人无法解决的问题。

2016年6月发布之后的6个月中,Datos IO的RecoverX分布式数据库备份产品已经获得10家付费客户。该软件采用语意的重复数据删除功能作为其秘密武器之一,这就是为什么今天我们要来看一看这家公司的原因。

RecoverX备份运行在本地或者运行在AWS、Google或者其他云中的非关系型数据库。RecoverX 1.5版本支持Google Compute Engine以及Google Cloud Storage。它帮助Google Cloud Platform用户保护他们托管在非关系型数据库(NoSQL、图形等)的下一代应用,这些数据库部署在IaaS和PaaS环境中。

这10家客户来自于金融服务、零售、电子商务、媒体和娱乐、医疗和物联网。Ayla Networks是Datos IO的物联网客户,Datos IO主要是备份这家公司的AWS云基础设施和非关系型数据库。Ayla因为成本和无法扩展的问题认为基于脚本的备份不适合自己之后,决定购买RecoverX软件。

Datos IO的零售客户是一家财富100强的大型家庭装修零售企业,他们将现有的电子商务应用从本地数据中心迁移到Google Cloud Platform公有云上,以满足法规遵从标准并提高运营效率。

备份界的特斯拉:解析初创公司Datos IO

Cassandra DBA Ishinder Singh的推特上询问Home Depot是否是Datos IO的客户

另外一家客户是梭子鱼(Barracuda Networks)。

Datos IO表示:“RecoverX是基于Consistent Orchestrated Distributed Recovery (CODR),这个下一代横向扩展数据保护架构是基于可以自动扩展的弹性计算服务,避免了对媒体服务器的依赖,并将数据并行地发送到基于文件的或者基于对象的二级存储,或者从二级存储中迁移出来。CODR让RecoverX能够提供可扩展的版本控制,这样企业就可以以任何间隔或者颗粒度保护和备份他们的数据,从而实现操作恢复和测试/设备使用实例中一键点击、协调的、无需修复的恢复,此外行业首推的语意重复数据删除功能让客户可以节约高达70%的二级存储成本。”

那么什么是语意重复数据删除?Datos IO的网页上有一份可下载的PDF,是由包括Datos IO共同创始人、首席执行官Tarun Thakur,以及首席技术官Prasenjit Sarkar在内的多名作者撰写的研究论文。该论文谈到了下一代最终一致存储系统(NECST,例如像Cassandra和MongoDB这样的非关系型数据库)备份和恢复的问题,并建议“对保存在系统中的数据具有深度语意方面的了解是一种解决方案”。

这篇论文中写道,“这种现代化的系统是如何不再将数据保存在单一设备的磁盘(或者SSD)上,而是把数据以复制的方式分布于多台设备上;复制是以最终一致性的方式进行的……正如我们所说,核心问题很简单:工具和系统还无法实现对这些复杂的、多样化的、分布式的NECST系统下的数据具有有效的、一致的逻辑视图。”

然后他们说:

我们相信成功的关键是对保存在这些新型存储系统中的数据具有深度语意的了解。只有通过监控和检查I/O传输和重构其含义(例如是否达到定量,或者动地如何复制特定的数据条目)关键NECST管理功能才能得到有效地、可扩展地发挥其作用。

因此,语意重复数据删除的第一个特点就是,它是应用感知的,应用就是非关系型数据库。

语意了解的特点,或者数据库操作结构理解,包括:

仲裁协调——传统存储相对比较容易知道什么时候进行更新,与传统存储不同,了解什么时候应该对存储系统进行升级的这个简单任务却是存在诸多挑战的。NECST系统要求那些想要了解其中保存了什么内容的工具和系统要知道数据是如何以及何时安全地在系统中进行了复制。通过全面了解NECST复制协议,备份工具可以决定升级的顺序,从而形成一致的存储视图。

冗余拷贝检测——传统条带或者镜像系统中的冗余性是很容易观察到的,与之不同,NECST系统能够以不同数位的方式对数据拷贝进行编码。因此,NECST备份或者归档系统必须能够仔细梳理NECST系统,以确定逻辑上相同的拷贝在哪里,这样才能将其合并,从而实现存储高效的备份。

配置忽略的备份和恢复——分布式系统会频繁更改配置,纵向扩展以满足新的要求,或者在发生故障、系统掉线的情况下出现问题。NECST工具必须能够保存数据,然后重建数据,尽管事实是配置已经更改了。

Datos IO的CODR软件“对数据库进行全面快照;在这之后,CODR追踪数据库的变更,生成这些变更的增量版本,有一个版本是对横向扩展分布式数据库的集群一致快照”,我们得知:

完整快照和增量快照是并行传输到一个备份存储系统中的,这个系统可以是小规模部署中心的单一节点,或者是更大规模部署的一个集群。在备份库CODR必须处理本地快照集以发现一个版本。CODR通过运行集成仲裁和语意重复数据删除算法来做到这一点,最终结果是数据的单一拷贝,节省了空间。这意味着CODR中必须有算法是专门针对单独数据库产品的,不能简单地说一个新数据库产品是不具备语意(操作结构)知识的。

备份界的特斯拉:解析初创公司Datos IO

CODR部署示意图

在这里有几个视频,你可以了解关于Datos IO CODR是如何工作的。

RecoverX的年度订购许可是基于物理数据库大小容量层($/TB)。在6个月内只获得了10家客户意味着定价并不便宜,这些客户在切换到Datos IO之前他们可能已经被自己的备份和恢复操作搞的焦头烂额了。

为什么我们在文章一开始的时候说Datos IO是备份界的特斯拉呢?如果把Veeam、Veritas和Dell EMC比作是备份界的福特、通用和克莱斯勒,那么我们认为Datos IO就像是特斯拉,以他们自己的方式重新定义了人们的备份方式,专注于一种精心设计的、高端产品来打造他们的业务。

我们相信未来它会扩大在数据库方面的覆盖面,可能会在市场中遇到Veeam和Veritas的竞争,对于备份界来说这将是一个有趣的时刻。


原文发布时间为:2017年1月8日

本文作者:齐丰润

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关文章
|
6月前
|
Java 大数据
解析Java中的NIO与传统IO的区别与应用
解析Java中的NIO与传统IO的区别与应用
|
3月前
|
人工智能 Cloud Native Java
云原生技术深度解析:从IO优化到AI处理
【10月更文挑战第24天】在当今数字化时代,云计算已经成为企业IT架构的核心。云原生作为云计算的最新演进形态,旨在通过一系列先进的技术和实践,帮助企业构建高效、弹性、可观测的应用系统。本文将从IO优化、key问题解决、多线程意义以及AI处理等多个维度,深入探讨云原生技术的内涵与外延,并结合Java和AI技术给出相应的示例。
125 1
|
3月前
|
自然语言处理 Java 数据处理
Java IO流全解析:字节流和字符流的区别与联系!
Java IO流全解析:字节流和字符流的区别与联系!
118 1
|
3月前
|
运维 Cloud Native 持续交付
云原生技术解析:从IO出发,以阿里云原生为例
【10月更文挑战第24天】随着互联网技术的不断发展,传统的单体应用架构逐渐暴露出扩展性差、迭代速度慢等问题。为了应对这些挑战,云原生技术应运而生。云原生是一种利用云计算的优势,以更灵活、可扩展和可靠的方式构建和部署应用程序的方法。它强调以容器、微服务、自动化和持续交付为核心,旨在提高开发效率、增强系统的灵活性和可维护性。阿里云作为国内领先的云服务商,在云原生领域有着深厚的积累和实践。
82 0
|
7月前
|
Java 数据库连接
提升编程效率的利器: 解析Google Guava库之IO工具类(九)
提升编程效率的利器: 解析Google Guava库之IO工具类(九)
|
6月前
|
Java 大数据
解析Java中的NIO与传统IO的区别与应用
解析Java中的NIO与传统IO的区别与应用
|
7月前
|
自然语言处理 Java 数据处理
Java IO流全解析:字节流和字符流的区别与联系!
【6月更文挑战第26天】Java IO流涵盖字节流与字符流。字节流(InputStream/OutputStream)处理数据单位为字节,适用于二进制和文本,而字符流(Reader/Writer)专注于文本,处理单位为字符,处理编码转换。字符流在字节流基础上添加编码处理,以装饰器模式实现。文件复制示例展示了两者区别:字节流直接复制所有数据,字符流处理字符编码。理解并选择适当流类型对优化程序至关重要。
158 0
|
2月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
87 2
|
11天前
|
存储 设计模式 算法
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
行为型模式用于描述程序在运行时复杂的流程控制,即描述多个类或对象之间怎样相互协作共同完成单个对象都无法单独完成的任务,它涉及算法与对象间职责的分配。行为型模式分为类行为模式和对象行为模式,前者采用继承机制来在类间分派行为,后者采用组合或聚合在对象间分配行为。由于组合关系或聚合关系比继承关系耦合度低,满足“合成复用原则”,所以对象行为模式比类行为模式具有更大的灵活性。 行为型模式分为: • 模板方法模式 • 策略模式 • 命令模式 • 职责链模式 • 状态模式 • 观察者模式 • 中介者模式 • 迭代器模式 • 访问者模式 • 备忘录模式 • 解释器模式
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
|
11天前
|
设计模式 存储 安全
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
结构型模式描述如何将类或对象按某种布局组成更大的结构。它分为类结构型模式和对象结构型模式,前者采用继承机制来组织接口和类,后者釆用组合或聚合来组合对象。由于组合关系或聚合关系比继承关系耦合度低,满足“合成复用原则”,所以对象结构型模式比类结构型模式具有更大的灵活性。 结构型模式分为以下 7 种: • 代理模式 • 适配器模式 • 装饰者模式 • 桥接模式 • 外观模式 • 组合模式 • 享元模式
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析

推荐镜像

更多