TalkingData公司在Greenplum上的应用实践

简介: 2017年8月23日的Greenplum技术研讨会,TalkingData架构师Max分享了该公司在Greenplum上的一些使用心得,分享给大家~~ 一、TalkingData公司简介 一家提供手机端数据分析的厂家。

2017年8月23日的Greenplum技术研讨会,TalkingData架构师Max分享了该公司在Greenplum上的一些使用心得,分享给大家~~

一、TalkingData公司简介

一家提供手机端数据分析的厂家。

通过手机端SDK 嵌入,手机用户操作数据,进行分析。

主要产品:

​ AppAnalytic、GameAnalytic、Ad Tracking

​ 营销云 - Smart Marketing Cloud

二、Data ATM

1. 系统简介:

Data ATM是第一部分所介绍产品的后台支撑平台,主要是用的架构是Greenplum,功能如下:

  • 人群定位与分析平台
  • 基于多个数据源的不同条件,找出特定人群
  • 对特定人群进行分析画像
  • 为前端数据应用提供数据支撑

2. 业务架构

3. 流程图

4. 技术架构

业务架构通过任务执行器进行任务解析,根据不同的技术栈对应解析到不同的网关(Greenplum网关、Spark网关、ETL)。

任务解析器会将任务解析成SQL分配给Greenplum执行,目前平台95%的数据源分析工作都是交给Greenplum执行的;另外Spark的任务是通过API调用执行的;ETL的过程,也都是通过Spark实现的。ETLSpark和GP的冷数据落盘,都是落到HDFS中去。

作者提到,开始的时候,他们用的是纯Spark的架构,但是慢慢发现Spark并不能完全满足业务需求,开发难度较大,故切换到Greenplum。目前Lookalike模型在Spark上。

三、主要数据存储Greenplum

1. 数据容量

  • 总数据容量400TB
  • 15~20TB每天
  • 唯一设备数55亿+
  • 日活设备数2.5亿
  • 月活设备数6.5亿
  • 月位置数据(聚集后)600亿,3个月的位置数据量,2000亿
  • 最大单个任务参与计算数据超过6TB
  • 任务耗时1秒~5分钟
  • 机器磁盘容量占用70%左右

2. 目前Greenplum规模

  • 21个数据节点,1个Master,单台机器配置4个Primary Instance,4个Mirror Instance;
  • 共计84个primary,84个mirror
  • 单节点配置:

​ 24Core CPU

​ 128GB RAM

​ 14*SAS 7200 Disk Raid 5 = 45TB(使用的应该是单块容量4T的盘)

  • 目前存储数据量

​ 400TB+纯文本数据存储在HDFS上,上载到本地磁盘的数据量大于400TB

3. Why Greenplum

  • 得益于可控的数据分布,提高执行效率,相比于spark上面块分布的策略,GP可以提供根据ID值的均匀分布,计算效率更高
  • 支持列式存储和压缩,方便对数据进行压缩,节约容量
  • 支持多样的数据类型:Array XML Json等,加快查询,节约开发成本
  • 支持GEO空间计算引擎PostGIS,不需要自己开发较复杂的空间计算函数
  • 扩展性强,Function Operator DataType Aggregation Index都可以由用户来自由定义,为二次开发及扩展提供很大帮助
  • 支持多种主流语言:PGSQL C Python Perl Java R,方便各类扩展
  • 使用标准的SQL语言,降低前端开发成本和时间

三、技术点分享

1. Array& Json

  • 通过使用数组缩减数据量,加快查询
  • 部分数据使用了多维数组,官方对多维数组支持较差,可以通过UDF实现
  • Greenplum5.0支持Json格式

举例:

2. PostGIS

  • 支持所有的空间数据类型
  • 支持复杂的空间和地理位置计算
  • 数据库坐标变换
  • 球体长度计算
  • 三维几何类型
  • 空间聚集函数

聚集点数据举例:

GEOHash解释

3. Bitmap

  • 在Greenplum内实现了Bitmap相关计算功能,用C写的UDF,效率不错
  • 基于RoaringBitmap算法,一个压缩算法,比较流行,在Spark和Hadoop上应用比较广泛
  • 通过标准的SQL语句来执行计算,可以像操作普通SQL语句一样操作这些RoaringBitmap数据
  • 10亿级别的位运算达到了毫秒级别

Bitmap示例:

使用Bitmap进行加速查询示例:

End~

目录
相关文章
|
8月前
|
存储 关系型数据库 数据库
精彩回顾|国产数据库共话未来趋势技术沙龙,在NineData成功举办
12月16日周六下午,由NineData、PostgreSQL中文社区、PolarDB开源社区共同举办的《国产数据库共话未来趋势》技术沙龙,在NineData的报告厅成功举办。本次沙龙汇聚阿里云、玖章算术、百度云、飞轮科技、YMatrix、格睿科技、羲和Halo等众多数据库厂商的技术大咖,以及北京大学、华东师范大学等高校工作者,一起围绕国产数据库,共话未来的技术趋势,与广大技术爱好者交流分享。
148 0
精彩回顾|国产数据库共话未来趋势技术沙龙,在NineData成功举办
|
安全 数据挖掘 OLAP
驱动数字化转型,Doris Summit Asia 2023 智慧金融与政企论坛精彩预告!
2023 年 10 月 21 日,首届线下峰会 Doris Summit Asia 2023 将在北京丽亭华苑酒店正式举行,大会将设置主论坛和智慧金融与政企、先进智造与电信、企业服务与新经济、互联网与文娱 4 个平行论坛,来自金融、互联网、政企、制造、电信、文娱等行业的数十位技术专家将与上千参会者一道,分享各行业标杆用户最佳实践与多场景解决方案,共同探讨数据分析领域最前沿的技术与未来趋势。
|
SQL 运维 负载均衡
OceanBase荣获OSCAR两项大奖,开源已成主流开发模式
2022 年 9 月 16 日,在由中国信息通信研究院(简称中国信通院)主办的“2022 OSCAR 开源产业大会"上,企业级开源原生分布式数据库 OceanBase 荣获“2022 OSCAR 尖峰开源项目和社区”、“2022 OSCAR 尖峰开源企业(开源运营与生态建设)”奖项,收获了小而美的开端。
203 0
OceanBase荣获OSCAR两项大奖,开源已成主流开发模式
|
存储 弹性计算 运维
阿里云PolarDB数据库斩获信通院STAR“稳定性实践先锋”
近日,由DBAplus社群主办、中国信息通信研究院指导举办的Gdevops全球敏捷运维峰会在广州盛大开幕,聚集众多企业领袖和技术专家,共同探讨运维、数据库和金融科技领域的前沿技术和独家经验。
396 0
阿里云PolarDB数据库斩获信通院STAR“稳定性实践先锋”
|
存储 Oracle 安全
万物并作,吾以观复|OceanBase 政企行业实践
万物并作,吾以观复|OceanBase 政企行业实践
326 0
|
SQL 存储 运维
携程DBA负责人俞榕刚:OceanBase在携程的落地和实践
携程DBA负责人俞榕刚:OceanBase在携程的落地和实践
266 0
|
存储 运维 容灾
新成就!OceanBase 入选 Forrester 首份分布式数据库报告
近日,全球权威 IT 咨询机构 Forrester 发布了首份分布式数据库市场调研报告—— “Now Tech: Globally Distributed Data Platforms, Q4 2021”(下简称《报告》),100% 自主研发的企业级原生分布式数据库 OceanBase 成功入选。
269 0
|
存储 自动驾驶 关系型数据库
【PostgreSQL 创新营】第三课:时空场景开发实践 答疑汇总
【PostgreSQL 创新营】第三课:时空场景开发实践 答疑汇总
553 0
【PostgreSQL 创新营】第三课:时空场景开发实践 答疑汇总
|
Oracle 容灾 关系型数据库
专访 OceanBase 数据库创始人阳振坤: 数据驱动业务发展 共建数据技术未来
2020年11月20日,第十届数据技术嘉年华在北京丽都皇冠假日酒店盛大开启。大会现场,北京奥星贝斯科技有限公司CTO、OceanBase数据库创始人阳振坤接受了企业网D1Net的采访。本文来自『企业网D1Net』的专访报道。
专访 OceanBase 数据库创始人阳振坤: 数据驱动业务发展 共建数据技术未来
|
SQL 关系型数据库 数据库
专访阿里资深研发工程师窦贤明:PG与商业数据库差距并不明显
在同台机器未做任何优化的情况下测试TPCC,PG与商业数据库的差距并不明显。如果不是极端或特殊的应用场景,性能上差距是比较小的,“这还是原生的,不算我们内部做的性能优化。”他指出。
7958 0