阿里云MVP
除明细数据导出外,取数场景中还会涉及到聚合分析。
数据从业者,无论是数仓同学、还是数分同学,都对“数据为什么对不上”这类问题深恶痛绝。
其实从3.0阶段开始,团队的升级路线就比较分散了,依赖于各公司对于数据团队职能的定位和期待。
1.0阶段的核心是数据分析,把大数据离线计算的整套流程和框架搭建起来,后续就是不断在框架中加入新的业务、新的需求了。但是1.0阶段的数据是T+1的,即每天、每周、每月定时计算的,快一点儿的有每小时、甚至每5分钟的,都是离线数据,实时性不足。2.0阶段重点加强的,就是实时计算领域。
“大数据”这个词,大家都已经不陌生了,已经从一个新兴的词汇变成了一个百姓茶余饭后都会聊到的概念。各种大大小小的互联网公司也都会创建自己的大数据团队,我也曾经在多家公司从事过大数据领域的开发和团队管理工作,这里写一下我自己的经历和感受。
领域驱动设计(DDD)这个概念也是最近比较火的,我第一次接触到这个概念,是阿里云的架构师来我们公司交流的时候,当时留意了一下,后面在自己团队工作遇到痛点时才真正开始学习。
1. 含义 和Java中的Map一样,多个Key-Value的组合。 2. 场景 什么样的数据,适合使用map类型来存储呢?这里列举了几个我在开发中实际用到的场景。 2.1 数量不固定的多个KeyValue 这类,本身就是Map类型的数据。
1. 含义 类似于Java中的类的概念。包含很多类的属性。 2. 场景 什么样的数据,适合使用struct类型来存储呢?这里列举了几个我在开发中实际用到的场景。 2.1 多个具有相同前缀的字段 其实struct完全可以拆成多个字段。
1. 含义 类似于Java中的array。有序、可重复。 2. 场景 什么样的数据,适合使用array类型来存储呢?这里列举了几个我在开发中实际用到的场景。 2.1 标签类的数据 为什么说标签类数据适合使用array类型呢?(1)标签一般是一个只有key、没有value的结构;(2)标签的数量(枚举值个数)会非常多;(3)标签的变化会比较频繁;(4)标签会过期;因此,比起“创建多个字段”、“使用指定分隔符分隔的字符串”、“使用map”等方法,使用array是更合适的。
DatwWorks终于升级2.0了,心情万分激动之余,又有一丝担忧。因为,没法再创建新的旧版工作流了。。。新版抛弃了“工作流”这个概念,引入了“业务流程”和“解决方案”两个新的概念。于是,作为团队Leader,我花了很大的精力去钻研这两个概念到底该如何应用在我的实际业务中。
貌似大部分人在遇到报错的时候,都懒得用翻译软件翻译报错信息,一般直接抛出来问,甚至连报错信息都懒得复制,直接截图出来。所以这里特地总结了一下,最近一段时间有人经常在群里问到的报错信息。 ODPS-0130252:Cartesian product is not allowed “不允许笛卡尔积”主要是为了防止用户误操作,不小心漏了关联条件,造成大量的资源的耗费。
在初创型互联网公司中,开发们整天想的唯一一件事,就是“把功能做出来”;而当公司业务量逐渐上涨、甚至翻了好几番之后,最开始的程序上的问题,就一个接一个地暴露了出来。
有时候我们会有这样的场景,在某个接口中,数据已经很规范地存入到一张的MYSQL表中,现在想对这样的数据做一些实时或准实时处理,比如数据多模式存储、异步准实时业务流程、业务实时监控等。