大数据初了解

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 了解大数据行业

假大空概念

源自某度百科:

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。

大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

个人局限见解

针对大数据技术、工作内容的理解:

通过一定的数据采集、清洗、处理、分析工具、收集并获取海量数据,利用Java、Scala、Python、SQL等语言进行复杂的分布式运算,最终对已产生数据进行复盘统计分析、对未来可能产生的结果数据进行预测的手段。

这是一个粗浅的解释,大数据的目的并非是监测一言一行、窥探个人的隐私、最主要的是通过对于个体信息的采集与分析,监控相关行业的稳定性,规避风险,推动新业务发展,造福人类。

大数据就业概览

以360为例,面向薪资学习 hh

网络异常,图片无法展示
|


网络异常,图片无法展示
|

职位描述如上:

分析如下

1.开源组件的离线/存储分析系统 ->Hadoop、Hive、Spark、Flink、HBase、Impala

2.大数据分析体系构建 -> 数仓模型思维

3.数据敏感,挖掘有价值信息-> 基本的数据分析能力、数据挖掘能力

4.代码的相关性要求-> 从评审设计到开发复盘整理的一系列元素

职位要求:

1.相关行业经验,入行时应该带着深挖行业经验的心态去学习,比如车联网相关,要对实时数据处理分析非常了解、代表公司滴滴、T3等,金融行业,投行,银行业,要了解相关金融知识,比如风控,贷前,贷后,资产质量评估等等。

2.编程基础:推荐Java为主、SQL为辅,大部分组件都是Java开发的,了解Java语言非常重要、同时因为大数据很多打包发布处理都要在Linux上操作、所以基本的Linux命令和Shell相关的内容也需要了解。

3.组件框架:Hadoop、Flink、Spark、kafka、针对离线数仓相关,对SQL要求比较高,针对实时数据,对Flink要求比较高,大多复杂场景需要深度理解框架,修改框架,进行二次开发,代表:网易猛犸大数据平台,华为鲲鹏大数据平台,星环TDH大数据平台。

4.数据治理思维:业务产生的数据可能并没有一定的数据分类规则,治理工程师就需要去归纳总结一定的治理规范,结合公司场景制定相关的数据治理标准,如开发脚本的命名,表命名,分组命名,定时任务命名规范,开发要求,等等。

5.沟通能力:非常重要,这一点,光会Coding、不会沟通等于闲的,技术人最终的出路是解决业务难题,更深层次的了解业务,结合业务,螺旋式上升提升技术才是长久之道,这不代表你不对技术做太高的要求,相反,能够结合业务本身去理解,做出更多提升效能,转化经济价值的软件与内容才能走的更远。所以沟通能力非常重要,沟通是你了解业务,深挖业务的前提,良好的沟通能力可以建立好小组工作之间的氛围,有效地沟通可以极大地提升效率。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
SQL 存储 大数据
ROLAP与大数据
大数据相关的场景比较多,常见的有:ETL(数据提取、转换、加载)、实时流式(监控报警、风控等)、机器学习(推荐引擎、用户画像等)、非结构化分析(视频、图片、语音、文本等)、海量大数据在线存储(HBase)、搜索及我们本文讲的OLAP。 其中OLAP(在线联机分析)在很多企业占住分析类的大部分。
6571 0
|
分布式计算 大数据 Hadoop
|
分布式计算 数据可视化 大数据
|
人工智能 算法 大数据