假大空概念
源自某度百科:
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
个人局限见解
针对大数据技术、工作内容的理解:
通过一定的数据采集、清洗、处理、分析工具、收集并获取海量数据,利用Java、Scala、Python、SQL等语言进行复杂的分布式运算,最终对已产生数据进行复盘统计分析、对未来可能产生的结果数据进行预测的手段。
这是一个粗浅的解释,大数据的目的并非是监测一言一行、窥探个人的隐私、最主要的是通过对于个体信息的采集与分析,监控相关行业的稳定性,规避风险,推动新业务发展,造福人类。
大数据就业概览
以360为例,面向薪资学习 hh
职位描述如上:
分析如下
1.开源组件的离线/存储分析系统 ->Hadoop、Hive、Spark、Flink、HBase、Impala
2.大数据分析体系构建 -> 数仓模型思维
3.数据敏感,挖掘有价值信息-> 基本的数据分析能力、数据挖掘能力
4.代码的相关性要求-> 从评审设计到开发复盘整理的一系列元素
职位要求:
1.相关行业经验,入行时应该带着深挖行业经验的心态去学习,比如车联网相关,要对实时数据处理分析非常了解、代表公司滴滴、T3等,金融行业,投行,银行业,要了解相关金融知识,比如风控,贷前,贷后,资产质量评估等等。
2.编程基础:推荐Java为主、SQL为辅,大部分组件都是Java开发的,了解Java语言非常重要、同时因为大数据很多打包发布处理都要在Linux上操作、所以基本的Linux命令和Shell相关的内容也需要了解。
3.组件框架:Hadoop、Flink、Spark、kafka、针对离线数仓相关,对SQL要求比较高,针对实时数据,对Flink要求比较高,大多复杂场景需要深度理解框架,修改框架,进行二次开发,代表:网易猛犸大数据平台,华为鲲鹏大数据平台,星环TDH大数据平台。
4.数据治理思维:业务产生的数据可能并没有一定的数据分类规则,治理工程师就需要去归纳总结一定的治理规范,结合公司场景制定相关的数据治理标准,如开发脚本的命名,表命名,分组命名,定时任务命名规范,开发要求,等等。
5.沟通能力:非常重要,这一点,光会Coding、不会沟通等于闲的,技术人最终的出路是解决业务难题,更深层次的了解业务,结合业务,螺旋式上升提升技术才是长久之道,这不代表你不对技术做太高的要求,相反,能够结合业务本身去理解,做出更多提升效能,转化经济价值的软件与内容才能走的更远。所以沟通能力非常重要,沟通是你了解业务,深挖业务的前提,良好的沟通能力可以建立好小组工作之间的氛围,有效地沟通可以极大地提升效率。