「短视频」进入大数据领域的学习路线是什么?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 「短视频」进入大数据领域的学习路线是什么?

视频地址


“读字节”公众号视频地址:进入大数据领域的学习路线是什么?


“读字节-大数据” B站视频地址:进入大数据领域的学习路线是什么?


“读字节(大数据)” 知乎视频地址:进入大数据领域的学习路线是什么?


文字内容:


想要进入大数据领域,首先最好要有一个演练场景,也就是你服务的客户具备大量非结构化的数据。若无法满足这一点,其实也不必烦恼,留意有些书的例子就带了很多数据,例如Google的Kaggle网站,有很多美国公共事业的数据。


其次学习大数据要有足够的机器资源,一台8核,16g—32g内存的电脑应该算学习的最低配置吧,现在大部分好点笔记本都能支持。切记是学习大数据技术而不是深度学习啊,那个深度学习硬件配置都是3万起步。


学习大数据一定要从数据的采集、处理(包括流,批)、消息队列和存储入手。这是大数据技术的生命周期


技术路线上,我建议先首先从nosql开始,学会文档数据库,键值对数据库的存储,也最好上手,像elasticsearch,MongoDB,Redis等等先来一圈


其次从日志流式管道入手,理解一下大数据传输的整体生命周期,那么学习elk技术,也就是filebeat采集文件或日志,logstash清洗过滤,kafka临时中转,再写入elasticsearch,Kibana最终显示。那么你会对大数据流的过程有了深刻的认识。


好了,做完上面的事情,总算大数据学习前的热身了!哈哈哈


开始进入正题


第一步开始使用推荐的硬件配置,开始搭建集群,zookeeper集群,做分布式调度;hdfs集群做分布式文件系统;yarn集群做分布式计算;hbase集群列式稀疏存储


第二步Hadoop生态工具搭建,hive工具,实现SQL接口视图加元数据存储;sqoop做rdbms数据库到hdfs的物化视图;flume替换elk,做文件或日志的流式采集进入hdfs。


第三步,开始你的基础编程之旅,包括hdfs的Java调用,MapReduce的程序实现,理解hdfs的块结构,理解MapReduce的计数,排序,连接和聚合,理解分区和分桶等等。另外还要理解实践avro容器格式,parquet列式格式,理解压缩,这些都是根本。


第四步,开始spark之旅,搭建spark集群,学习什么是rdd,dataframe,学习scala语言,会Python更好,学习spark streaming如何将rdd转换成微批模式和流式处理


好吧,有了这些功底,就可以开始一些机器学习或数据科学分析或数据挖掘的学习了。祝愿你能成为大数据这方面的专家。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
分布式计算 大数据 Java
问我大数据怎么入门,我总结了亲身体验的学习路线推荐给她【推荐收藏】
问我大数据怎么入门,我总结了亲身体验的学习路线推荐给她【推荐收藏】
66 0
|
SQL 存储 分布式计算
大数据学习路线--学习的基本技术
大数据学习路线--学习的基本技术
大数据学习路线--学习的基本技术
|
消息中间件 机器学习/深度学习 存储
从零开始的大数据技术学习路线指南:带你轻松成为大数据开发工程师!2
从零开始的大数据技术学习路线指南:带你轻松成为大数据开发工程师!2
509 0
从零开始的大数据技术学习路线指南:带你轻松成为大数据开发工程师!2
|
SQL 存储 分布式计算
从零开始的大数据技术学习路线指南:带你轻松成为大数据开发工程师!1
从零开始的大数据技术学习路线指南:带你轻松成为大数据开发工程师!1
1214 0
从零开始的大数据技术学习路线指南:带你轻松成为大数据开发工程师!1
|
SQL 分布式计算 算法
大数据学习路线
JavaSE,数据结构与算法(计算机行业必备),MySQL,Redis,ES(数据库这些可以看项目,也可以自己熟练一两个),Linux,Shell(这个可以后期补),Hadoop,Zookeeper,Hive,Flume,Kafka,HBase,Scala(Spark是Scala写的,会Scala做相关的项目会更容易入手),Spark,Flink(这个是找工作时有面试官问过几次liao不liao解,所以找完工作才开始接触学习),相关项目。
618 1
大数据学习路线
|
SQL 分布式计算 资源调度
大数据入门介绍和学习路线
Java 为主。主要做统一数据开发平台、大数据源码级别扩展优化、提供提升开发效率的工具、元数据管理、数据质量管理等。技能要求:Java,Zookeeper,Hadoop,Hive,Spark,Kafka等。
264 0
大数据入门介绍和学习路线
|
人工智能 大数据 vr&ar
使用AR、AI以及大数据改革教育体系——为每位学生打造自己的私人定制学习路线
随着技术的发展,教育行业也面临着变革。以AR、AI以及大数据等工具将帮助我们了解自己的学习习惯,并转变课堂学习方式。
2470 0
|
1天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6天前
|
消息中间件 数据采集 JSON
大数据 - DWD&DIM 行为数据
大数据 - DWD&DIM 行为数据
19 1

热门文章

最新文章