今天上午数仓专业群里讨论的格外火热,中午 11 点得空看了一下几百条消息,想了下,一定是发生了有趣的讨论,现在一哥就带你一起回顾下~ 看完了群里的几百条消息,总结了下,大家讨论主要围绕以下几个方向:
- 1,你们的大数据平时主要做什么工作?
- 2,大数据的未来是什么?
- 3,数据治理怎么做?
- 4,35 岁了该怎么转型?
下面我们一一来看大家都对上面的问题怎么看的。
大数据工作平时主要干啥
写 SQL
搞 etl,头三年写 sql,再三年当个组长教人写 sql,再三年基本上就是基本上就是专家了,还写个毛 sql,把文档规范写写,没什么事,开开会,不香么?
一位群友说现在做的就是离线处理工作,天天就是 Hive SQL,对接各种需求,提个数,现在已经沦为 SQL boy!看着做实时计算的同事都是在写 Scala,确实现在实时计算已经很流行了,但是我很统一另外一位群友的观点:做实时计算就不用写 SQL 了?不错,可以看看现在哪个大数据计算引擎敢不支持 SQL,看看 Flink,另外看看现在主导这些开源项目的领导者很多都是以前搞关系型数据库出来的。所以,写 SQL 没什么不好,但是不能只会 SQL,可以看看之前一哥写过一篇文章《数仓工程师如何避免沦为“提数机”》,就算跳槽了,将来也好有筹码谈薪不是。
建模
没有做过咨询,搞起来的模型,理论上都没有验证梳理过。
很多人会说,我不是写 SQL 的,我是建模工程师。“建模,都是靠咨询出来的”,可以看到建模并不是一个技术性很强的工作,而是一个业务强相关的。不深入业务,那么你的模型是很难有立足之地的。可以看看之前一哥写的一篇文章《业务重要?还是技术重要?》。
撸代码(Java、Scala)
幸亏 我尼玛三年前 java 转产品了。
一位群友说之前是 java 转的数据库开发,当时是感觉写 java,还要写前台,中间件,还要写那么一堆框架……所以转了 etl。其实,搞数据和 Java,目的是一样的,怎么把业务问题解决,看你自己怎么选。有些群友是干着 Java,慢慢还得干前端开发,自己就放弃了……,自己现在有个朋友就是这种情况,不知道大家处理转方向,都是怎么处理的,可以评论区留言告诉我下~
大数据的未来是什么
算法挖掘
AI 工作者跟精神病院护工的工作性质比较类似,大量行为靠猜!
大数据的用途就是在于计算存储数据,但是不结合算法很难发挥大的价值。一位群友说,现在大数据做的好的都在慢慢往算法上靠,我很赞同,自己也有相同的经历。
其实,很明显的感觉到,现在说大数据都要挂上 AI,那么什么是 AI?“人工+智能,有多智能,就有多少人工~”。另外,很多人工智能算法部署需要硬件的支持,但是现在很多企业在用的硬件并不支持,如果要使用 AI,也许就要对所有的设备更新换代,这也是 AI 现在很难落地的原因。老板们都想着把十几万的大众,搞成自动驾驶……
那么做算法挖掘看起来现在还更靠谱一些,做算法必须要学习一些统计学知识了,可能需要你徒手写公式了,要不然,别人问你分析的结果怎么出来的,你只能说是算法自己跑出来的,这就尴尬了。
clickhouse
群里有一位大佬,就说 clickhouse 是未来的方向,赶紧学吧!为什么呢?
clikhouse 给人的第一感觉就是“快”,天下武功,唯快不破。这同时说明了,现在数据分析、业务人员大家都喜欢快的产品,MR 你再强,我也认不了坐那等一个小时出结果。所以,大数据的未来一个方向就是查询要快。硬件资源 CPU 有大的技术更新很难,所以实时计算,也必然大方向了。可以看看之前分享的一些 clickhouse 的文章:《趣头条ClickHouse实战.ppt》《Hbase、Kudu和ClickHouse全视角对比》
数据治理怎么做
实际上数据治理从实施路径上看,有了高层支持和前期规划后,接下来就是依赖工具去执行,所以工具的智能和操作重复这块就需要多考虑,总之就是让实际元数据、数据标准、数据质量小组人员操作简便。元数据与标准贴合是比较高的,标准与数据质量贴合也很高,所以必须让三个模块互融互通较少录入工作量,让系统自动抽取,智能推荐才是王道。
《大数据平台数据治理与建设方案(附84页PPT)》《数据治理的挑战和最佳实践(附PPT)》
35 岁了该怎么转型
技术能力不能丢
PPT 是最好的语言!
其实写文字和写代码一样,都是一种技术能力。而且牛 B 的技术就能把技术讲的普通人都能懂。不管是做管理,或者是做咨询,建议技术能力都要抓一下,可以参考之前写的一篇文章《【一哥闲聊】程序员如何打破35岁魔咒》
转型(离职)?
好几个群友都说 35 岁后就很难找工作了,而且做数据开发离职,牵扯了很多业务,不好走。其实,我很赞同另外一个群友的观点:钱到位了就留下,不到位就走,一个离职说的都快拍一个电影了都~
花了一个小时,把大家的聊天记录看了好几遍,花了一个小时总结上面的一些内容,也是第一次发这样的文章,有群里的读者看到整理的不对,欢迎在评论区留言更正~