2022年5月16号,阿里云RDS重磅发布Babelfish for RDS PostgreSQL,兼容SQL Server生态版本,本篇文章从以下角度探讨Babelfish的方方面面:
- Babelfish是什么
- 为什么使用PostgreSQL来实现
- Babelfish的架构
- 受众与场景
- 最佳实践
- Babelfish的未来发展
Babelfish是什么
基于Babelfish for PostgreSQL的开源项目,阿里云RDS PostgreSQL实例生产时开启Babelfish选项后,使您同时获得Microsoft SQL Server和PostgreSQL两种数据库引擎实时在线数据查询和处理的能力。因此,您无需切换数据库驱动程序或重新编写SQL,只需要在少量代码适配的情况下,将应用程序的数据库从SQL Server迁移至开启了Babelfish的阿里云RDS PostgreSQL实例上来,轻松实现“一份成本,两种引擎”。
为什么是PostgreSQL
一个实例,两个引擎,实时在线,双引擎双活,为什么是PostgreSQL数据库来实现呢?总结来看,有如下理由:
- 良好的开源发展趋势
- 逐渐走弱的闭源商业数据库
- 强大的用户基础
开源数据库良好的发展趋势
PostgreSQL 是全球开源数据库排名第二的产品,有着强大的生态和社区力量,且有着最接近商业数据库的企业级特性,有着非常开放的生态和自由的开源协议。DB-Engines 2022年4月份统计,PostgreSQL 较2021年上升56.04分,总分是615.29;SQL Server 较2021年大幅下降51.46,总分是941.20 。
闭源商业数据库走弱
与开源数据库发展良好势头相反,闭源的商业数据库或原地踏步或一路走低,下图是商业数据库 VS PostgreSQL DB-Engines Ranking:
从 DB-Engines Ranking来看, 近10年的走势,PostgreSQL 几乎都是一路向好;而反观商业数据库,要么原地踏步,要么一路走低。根据近10年的 DB-Engines Ranking 数据预估,可能在近两年内,PostgreSQL 将超越 SQL Server,说明 PostgreSQL 本身有着强大的生命力。
强大的用户基础
- 根据DB-Engine Ranking评测,PostgreSQL获得2017,2018和2020三次年度“DBMS of the Year”,最受开发者欢迎的数据库。
- Stack Overflow开发者调查统计,2019,2020,2021连续三年最受欢迎和最喜爱的数据库排名第二。
PostgreSQL is the DBMS of the Year 2020:https://db-engines.com/en/blog_post/85
Stackoverflow开发者调查统计:
https://insights.stackoverflow.com/survey/2019#technology-most-loved-dreaded-and-wanted
https://insights.stackoverflow.com/survey/2020#technology-most-loved-dreaded-and-wanted
https://insights.stackoverflow.com/survey/2021#technology-most-loved-dreaded-and-wanted
Babelfish架构
从如下两个方面理解babelfish的架构:
- Babelfish整体架构
Babelfish迁移模式架构
- Single-DB模式
- Multi-DB模式
整体架构
Babelfish 通过插件的方式扩展 PostgreSQL 的功能,使得 PostgreSQL 在具备自身所有能力的同时,又具备接受和处理 Microsoft SQL Server 数据库数据查询和处理的能力。
Babelfish整体架构分为三层,至上而下分为:
- 应用层
- RDS PostgreSQL引擎层
- 云原生基础设施层
应用层
开启了Babelfish选项的RDS PostgreSQL,既可以接收和处理来自SQL Server的应用连接,比如:C/C++类的MSSQL ODBC应用,JAVA类的MSSQL JDBC应用以及微软系使用最为广泛的C# .NET Provider for MSSQL类应用;又可以处理来自PostgreSQL类的应用,比如JAVA类PostgreSQL JDBC类应用。
引擎层
一个 Babelfish for RDS PostgreSQL 实例会监听两个 TCP 端口,一个是接受 SQL Server 协议的端口 (TDS),默认是 1433,另一个是接受来自 PostgreSQL 协议的端口,默认是 5432。如此,可以实现“一份成本、两种引擎”,使得SQL Server与PostgreSQL双引擎在线。
TDS 协议端口接受和处理来自 SQL Serve应用类的请求,并将 SQL Server 的 T-SQL 经过自定义解析器转为 PostgreSQL 可以识别的执行计划,交由PostgreSQL内核执行,然后返回给SQL Server终端用户。
云原生基础设施层
RDS PostgreSQL数据库引擎,构建于阿里云云原生基础设施之上,享受来自云存储、计算、网络等基础技术设施的红利。
迁移模式架构
Babelfish for RDS PostgreSQL 有两种迁移模式可供选择,分别是:single-db 模式和 multi-db 模式。迁移模式影响 SQL Server数据库的 shema 到 PostgreSQL 中 babelfish_db 库的 schema 名字的映射方式关系。
Single-DB Mode
在 single-db 模式下,只支持用户在 Babelfish 中创建一个用户数据库,Babelfish用户数据库的 schema名称和 PostgreSQL 中 babelfish_db 数据库的 schema 名字相同。例如:在 TDS 端口中创建数据库 DB_A,在 DB_A 下创建 schema_A,则在 PostgreSQL 的 babelfish_db 数据库中看到两个 schema:dbo 和 schema_A,对应到 Babelfish 中 DB_A 数据库的 dbo 和 schema_A。其中dbo为SQL Server默认创建的系统schema。
single-db 模式应用场景:
- 迁移单个 SQL Server 数据库到 Babelfish for RDS PostgreSQL,迁移之后的 schema 名字和 SQL Server 中被迁移数据库下的 schema 名字保持一致,使得应用服务可以在改动尽可能小的情况下切换到RDS PostgreSQL。
- 整合多个 SQL Server 数据库到一个 Babelfish 数据库,最终目标是完全迁移到 RDS PostgreSQL。
Multi-DB Mode
在 multi-db 模式下,Babelfish 中用户数据库的 schema 名字映射到 PostgreSQL 的 babelfish_db 数据库中之后会变成:<数据库名>_<shema名字>。例如:在 TDS 端口中创建数据库 DB_A 和 DB_B,在 DB_A 和 DB_B 下分别创建 schema_A 和 schema_B,则在 PostgreSQL 的 babelfish_db 数据库中看到 DB_A 的 schema 为: DB_A_dbo 和 DB_A_schema_A; DB_B 的 schema 为: DB_B_dbo 和 DB_B_schema_B。
multi-db 模式应用场景:
- SQL Server SAAS使用场景,按数据库划分多租户,每个库一个租户。
- SQL Server中有多个用户数据库,需要RDS PostgreSQL需要一一对应。
- 未来可能有迁移多个用户数据库到 RDS PostgreSQL 的需求。
- 多个 SQL Server 用户数据库需要一起迁移,最终目标是使用 Babelfish 替代 SQL Server。
用户是谁
如果您也有如下的诉求,那么可以考虑使用Babelfish for RDS PostgreSQL。
- 期望节省SQL Server的License费用支出,想要迁移到开源数据库PostgreSQL。
- 政策要求去商业数据库,需要将SQL Server切换为PostgreSQL,但又不希望投入大量时间和精力重写应用程序。
- 期望使用PostgreSQL强大的开源插件库能力,例如时空引擎PostGIS/Ganos,时序插件TimescaleDB等近100款插件。
- 期望一份成本享受两种数据库引擎实时在线的数据查询和处理能力。
最佳实践
创建Babelfish for RDS PostgreSQL实例
新购RDS PostgreSQL 13版本时,勾选 启用 Babelfish即可创建出Babelfish for RDS PostgreSQL:
创建用户
RDS PostgreSQL控制台创建高权限账号,
然后连接实例的 PostgreSQL 端口,执行命令:call sys.babel_initialize_logins('babelfish_user');
即可。
连接Babelfish TDS端口
您可以使用以下任何一款客户端连接工具来连接Babelfish for RDS PostgreSQL的TDS端口。
- tsql (freetds)
- sqlcmd (SQL Server Command Line)
- SSMS (SQL Server Management Studio)
- Azure Data Studio
简单操作
系统查询
- 查询版本:
SELECT @@version;
- 查询数据库信息:
SELECT * FROM sys.databases;
数据库操作
- 创建数据库:
CREATE DATABASE testdb;
- 查询数据库:
select * from sys.databases where name = 'testdb';
- 查看当前数据库:
SELECT db_name();
- 切换数据库:
USE testdb;
- 删除数据库:
DROP DATABASE testdb;
Schema操作
- 创建Schema:
CREATE SCHEMA sch_demo;
- 查看Schema:
SELECT * FROM sys.schemas AS sch WHERE sch.name = 'sch_demo';
- 删除Schema:
DROP SCHEMA sch_demo;
表操作
- 新建表
-- go inside new db
use testdb
GO
-- create table with two columns
create table dbo.tb_test(
id int not null IDENTITY(1,1) primary key,
name varchar(50))
GO
- 检查新建表
select sche.name as schema_name, tb.name as table_name
from sys.tables AS tb
inner join sys.schemas as sche
on tb.schema_id = sche.schema_id
where tb.name = 'tb_test';
GO
- 新增字段
-- add column
alter table dbo.tb_test add col_added bigint null;
GO
- 修改表字段
-- modify column
alter table dbo.tb_test alter column col_added varchar(50);
GO
- 删除表字段
-- remove column
alter table dbo.tb_test drop column col_added;
GO
索引操作
- 创建索引
-- create index
create index ix_tb_test_name on tb_test(name);
GO
- 重建索引
-- rebuild index
alter index ix_tb_test_name on tb_test rebuild;
GO
不支持直接重建索引,但是可以先drop, 然后再create。
- 删除索引
-- drop index
drop index ix_tb_test_name on tb_test;
GO
存储过程
- 创建
-- create store procedure
USE testdb
GO
CREATE PROC dbo.UP_getDemoData(
@id int
)
AS
BEGIN
SET NOCOUNT ON
SELECT *
FROM dbo.tb_test
WHERE id = @id
END;
GO
- 查看存储过程
-- check store procedures
select *
from sys.procedures
where name = 'up_getdemodata';
- 执行
-- EXEC store procedure
EXEC dbo.UP_getDemoData @id = 7;
GO
- 修改
-- alter store procedure
USE testdb
GO
ALTER PROC dbo.UP_getDemoData(
@id int
)
AS
BEGIN
SET NOCOUNT ON
SELECT *
FROM dbo.tb_test
WHERE id >= @id
END;
GO
修改存储过程还不支持,但是可以通过删除,再创建来work around
- 删除
-- DROP PROC
USE testdb
GO
DROP PROC dbo.UP_getDemoData
GO
数据操作
- INSERT
-- init data
INSERT INTO dbo.tb_test(name)
SELECT 'A' UNION ALL
SELECT 'B';
GO
- SELECT
-- query
select * from dbo.tb_test;
- UPDATE
-- update
update top(1) dbo.tb_test
SET name = 'A_updated'
;
GO
- DELETE
-- DELETE only one row
DELETE TOP(1) FROM dbo.tb_test;
GO
-- check data
select * from dbo.tb_test;
应用程序
Babelfish for RDS PostgreSQL的TDS协议,支持一切SQL Server应用,比如:
- C#类应用程序
- JAVA类应用程序
- Python类应用程序
- C/C++类应用程序
- Golang类应用程序
详情应用程序Demo,请参考帮助文档:https://help.aliyun.com/document_detail/428618.html
Babelfish不能做什么
Babelfish 目前还没有完全兼容 Microsoft SQL Server T-SQL,详细的语法限制参见:https://babelfishpg.org/docs/usage/limitations-of-babelfish
Babelfish的未来
众所周知,Microsoft SQL Server是一款简单易用、有着非常多企业级特性、功能强大的商业数据库,兼容SQL Server语法,不断减少Limitations是Babelfish未来的发展方向。
SQL Server企业级特性
- 方便的跨库访问和JOIN
- 库、表级备份还原能力
- 内置异步消息中间件(Service Broker)
- SQL Server PolyBase内置BigData查询支持
- Resource Governor资源隔离
- 内存数据库Hekaton
SQL Server 企业级安全性
- SSL链路加密
- 透明数据加密TDE
- 备份加密
- Column Level Encryptions
- Row Level Encryption
- Data Masking
- Always Encrypted
- SQL Audit
SQL Server数据同步技术
- 实例级别:AlwaysOn可用性组
- 数据库级别:Database Mirroring,Log Shipping
- 表级别:Replication
- 行级别:Replication + Row Level Filter
- 列级别:Replication + View