阿里云表格存储于近期功能再升级,升级后的表格存储支持对DataHub采集的数据进行持久化存储,其Python SDK新增支持Python 3.x,以及最新发布的TimelineLib能够帮助用户轻松构建千万级IM和Feed流系统。
功能一:支持对DataHub采集的数据进行持久化存储
阿里云表格存储支持对DataHub采集的数据进行持久化存储。用户可以通过DataHub服务对各种移动设备、应用软件、网站服务、传感器等产生的大量流式数据进行持续不断的采集,并实时写入到表格存储中进行持久化存储,基于表格存储提供低成本、弹性与高性能的数据在线服务。
据了解,该新功能适合使用DataHub进行数据采集并对数据有持久化存储与在线服务需求的用户。
持久化存储功能的实现依赖DataHub DataConnector功能将DataHub服务中的流式数据同步到其他云产品中,目前支持将Topic中的数据实时/准实时同步到MaxCompute(ODPS)、OSS、Elasticsearch、RDS Mysql、ADS、TableStore中。用户只需要向DataHub中写入一次数据,并在DataHub服务中配置好同步功能,便可以在各个云产品中使用这份数据。数据同步支持at least once语义,在网络服务异常等小概率场景下可能会导致目的端的数据产生重复。
前置条件
创建TableStore DataConnector主要需要如下前置条件:
· TableStore相关信息,包括TableStore服务的Endpoint、TableStore实例及其对应的Table;
· DataHub Topic的Owner/Creator账号, 才有相应的权限操作DataConnector,包括创建,删除等;
· TableStore表的主键列必须在DataHub Topic下有字段一一对应(定义顺序可以不一致);
· 授权服务角色AliyunDataHubDefaultRole,使得DataHub可以访问用户的TableStore资源(授权链接)。
操作流程
1. 进入Topic的详情页面:
2. 选择同步TableStore并填写相关配置:
3. 在DataConnector页面查看数据归档状态:
配置说明
名称 |
是否必须 |
描述 |
TableStore Endpoint |
yes |
TableStore服务地址 |
TableStore实例名 |
yes |
TableStore实例名 |
TableStore表名 |
yes |
同步到TableStore的表 |
注意事项
· TableStore表的主键列必须在对应的DataHub Topic下存在同名的字段,由于DataHub大小写不敏感,所以TableStore的主键名如果存在大写字母,那么在DataHub Topic有对应小写字段;
· 同步TableStore表的DataConnector任务仅支持TUPLE类型Topic;
· TableStore服务端自身的限制最大每次批量写入的行数为200,具体TableStore的相关限制请参考https://help.aliyun.com/document_detail/27301.html。
功能二:表格存储Python SDK支持Python 3.x
TableStore Python SDK 从现在开始可以支持Python 3了,Python的3.0版本,相对于Python的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0在设计的时候没有考虑向下兼容,所以Python2和Python3有较大的不兼容。目前已经有大量的项目和系统开始使用Python 3,Python官方对于Python 2的支持也将在未来3年内放弃支持。
为了更好的满足Python 3用户的需求,TableStore的新版本SDK对Python3做了适配性,同一个版本可以支持Python2.6,Python2.7,Python3.3,Python3.4,Python3.5和Python3.6。用户在安装的时候,不管是通过setup.py还是pip方式,安装脚本会自动根据当前使用的Python的版本选择不同的安装内容,保证安装好的TableStore Python SDK可以完美适配Python版本。
该项新功能适用于使用表格存储Python SDK的全网用户。
功能三:TimelineLib
TableStore发布TimelineLib,现在用户可以通过TimelineLib轻松构建千万级IM和Feed流系统。 TimelineLib基于表格存储,实现了Timeline概念模型,并将该模型转换成为对存储系统、同步系统的读写接口,并封装了对底层存储系统的交互逻辑。
用户基于TimelineLib即可轻松实现一个基于表格存储的IM或者Feed流系统,并能够充分的将表格存储的高并发、低延时特性利用起来。此功能特别适合需要IM、Feed流系统的游戏、社交类客户。