「短视频」进入大数据领域的学习路线是什么？-阿里云开发者社区

「短视频」进入大数据领域的学习路线是什么？

2022-10-20 195

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 「短视频」进入大数据领域的学习路线是什么？

视频地址

“读字节”公众号视频地址：进入大数据领域的学习路线是什么？

“读字节-大数据” B站视频地址：进入大数据领域的学习路线是什么？

“读字节(大数据)” 知乎视频地址：进入大数据领域的学习路线是什么？

文字内容：

想要进入大数据领域，首先最好要有一个演练场景，也就是你服务的客户具备大量非结构化的数据。若无法满足这一点，其实也不必烦恼，留意有些书的例子就带了很多数据，例如Google的Kaggle网站，有很多美国公共事业的数据。

其次学习大数据要有足够的机器资源，一台8核，16g—32g内存的电脑应该算学习的最低配置吧，现在大部分好点笔记本都能支持。切记是学习大数据技术而不是深度学习啊，那个深度学习硬件配置都是3万起步。

学习大数据一定要从数据的采集、处理(包括流，批)、消息队列和存储入手。这是大数据技术的生命周期

技术路线上，我建议先首先从nosql开始，学会文档数据库，键值对数据库的存储，也最好上手，像elasticsearch，MongoDB，Redis等等先来一圈

其次从日志流式管道入手，理解一下大数据传输的整体生命周期，那么学习elk技术，也就是filebeat采集文件或日志，logstash清洗过滤，kafka临时中转，再写入elasticsearch，Kibana最终显示。那么你会对大数据流的过程有了深刻的认识。

好了，做完上面的事情，总算大数据学习前的热身了！哈哈哈

开始进入正题

第一步开始使用推荐的硬件配置，开始搭建集群，zookeeper集群，做分布式调度;hdfs集群做分布式文件系统;yarn集群做分布式计算;hbase集群列式稀疏存储

第二步Hadoop生态工具搭建，hive工具，实现SQL接口视图加元数据存储;sqoop做rdbms数据库到hdfs的物化视图;flume替换elk，做文件或日志的流式采集进入hdfs。

第三步，开始你的基础编程之旅，包括hdfs的Java调用，MapReduce的程序实现，理解hdfs的块结构，理解MapReduce的计数，排序，连接和聚合，理解分区和分桶等等。另外还要理解实践avro容器格式，parquet列式格式，理解压缩，这些都是根本。

第四步，开始spark之旅，搭建spark集群，学习什么是rdd，dataframe，学习scala语言，会Python更好，学习spark streaming如何将rdd转换成微批模式和流式处理

好吧，有了这些功底，就可以开始一些机器学习或数据科学分析或数据挖掘的学习了。祝愿你能成为大数据这方面的专家。

「短视频」进入大数据领域的学习路线是什么？

视频地址

文字内容：

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

「短视频」进入大数据领域的学习路线是什么？

视频地址

文字内容：

热门文章

最新文章

相关课程

相关电子书