如何入门大数据之基础准备(一)(超级详细介绍)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 如何入门大数据之基础准备(一)(超级详细介绍)

博客导航(请收藏):邵奈一的技术博客导航


学习大数据,最好有编程语言基础,哪种语言其实无所谓,因为你有了编程思想,学习起其他编程语言,都会非常轻松。在编程语言中,尤其是得有Java基础,其实也可以说是必须有Java基础。入了门之后,再学习一下Linux知识,因为学习大数据的时候,其实我们都是要操作集群环境的,这些集群环境,几乎都是以Linux操作系统为主的。接着学习一下Scala语言,方便入门Spark等等。当然,如果你啥也不会,没关系,请看我给你们整理的教程。


1、安装JDK8

首先,我们需要学习一下Java,那么在学习之前,应该先把环境安装好,目前用得Java版本用得最多的是Java 8版本,以Windows系统为例,请参考教程:

jdk8的安装(windows)


如果您的是Mac或者Linux操作系统,可以参考下面的教程(解压并配置好环境变量就可以了,不需要进行教程里面同步的过程):

分布式集群环境之JDK8的安装与配置(Centos7)


2、编程神器IDEA的安装

安装好后,你还需要安装一个使你更容易进入编程状态的编辑器,我们以目前主流的Java编辑器IDEA作为教程:

IDEA2018安装与配置


3、编辑神器IDEA的配置

安装好后,你可以配置一下相关的操作,比如IDEA需要配置好JDK(可以只操作配置JDK的部分)

IDEA的使用及常用配置(JDK、Maven等)


4、Maven的安装与设置

你可以先下载好Maven,然后解压就可以使用了,但是为了更加好用,你可以配置一下环境变量,并且按照教程,配置好从国内下载资源。Maven是一个包管理工具,方便我们进行项目的管理的:

Maven的安装与设置

当然IDEA里面有内置了Maven,作为入门,你可以直接使用。


5、完成第一个Java网站

按照好JDK、IDEA,配置好Maven之后,你就可以跑一个项目来看看了。我们以构建一个网站为例,照着操作就行,哪怕是复制粘贴也要跑一下,让自己的小内心爆棚一下下:

SpringBoot+Thymeleaf+ECharts实现大数据可视化(基础篇)

此篇教程比较综合,但是对于整个网站的架构以及实现流程的理解是非常关键的。


6、Java语法熟悉

再熟悉一下Java的语法,可以参考一下这篇教程:

Java模拟定时生成日志到文件

这里我用Python方式也给大家实现了一遍,让有Python基础的同学,可以对比着学习:

Python模拟日志生成


7、Linux学习环境准备

熟悉了Java语法之后,你就可以学习一下Linux相关的知识了。但是,在学习之前,你需要拥有一个Linux学习环境,此处我列举给出三种方式。


方式一:在线Linux学习环境


可以直接搜就可以找到在线学习Linux相关的网站,比如:JSLinux 等等。

此外还有一些在线做实验的网站,也可以直接使用别人的Linux操作环境,比如关于学习Linux的实验,肯定是会提供一个环境给大家的,可以以此来学习Linux,自己可以自己搜一下相关的网站。

方式二:搭建虚拟机


自己可以搭建虚拟机,然后安装好Linux操作系统就可以学习了,那么首先你要先有一个安装虚拟机的软件,比如VMware、Virtual Box或者Win10系统自带的虚拟化工具。相关的操作比较繁琐,但是非常关键,很多入门的学习者就卡在这里了。可参考此两篇教程来安装虚拟机,并且配置好网络:

D001.1 Window7系统上Centos7的安装

如果想要深入学习,网络肯定是需要配置的,而且以后也是要配置的,当然,因为你还没有学习过Linux,所以相关的操作可能会有点难度,如果对着操作操作不出来,则可以先看后面的Linux,再回头学习,参考教程:


D001.2 Centos7虚拟机NAT网络的配置(windows)

方式三:购买云服务(推荐)


我们可以选择购买云服务器,然后在选择操作系统的时候,选择Centos或者Ubuntu等Linux操作系统都可以,我们以Centos为例,可以选择购买阿里云、华为云、腾讯云等的服务器,一般是学生的话,都会有优惠,新人也有优惠,买一个最低配置的都可以学习了。你可以选择按需购买,一个小时可能也就花几毛钱而已,可以减少很多麻烦的操作。但是,个人建议,只是在你刚开始的时候,想要快速入门可以选择这种方式,后面熟悉了,建议还是选择自己搭建几台虚拟机来学习,一来可以减少你的开销,二来可以减少很多坑。关于云服务的购买教程可以直接查看官网的步骤,以后有时间我会补充上来。

8、远程链接工具XShell的使用

安装好虚拟机或者购买了云服务器之后,为了有一个良好的操作效果,建议装一个远程链接工具,然后链接服务器直接来操作,软件有XShell、MobaXterm、PuTTY等等,此处给出XShell的教程:

D001.3 下载XShell教程与简单使用

注意:如果是虚拟机,必须要先配置好网络,你的主机能够跟虚拟机进行通信才能链接,操作可以配置成NAT模式,教程在本文上面。


9、Linux命令学习

搞定好Linux学习环境后,这时候就可以学习Linux的一些常用操作了:

学习大数据常用Linux命令

如果你觉得想进一步扩展知识的话,需要自己去研究一下这篇教程,方便记忆:

Linux命令的英文含义(便捷记忆)


10、传输工具的安装

因为等一下,我们需要对前面我们完成的网站打成Jar包,然后上传到服务器上,此步骤你可能没学过,可以先不管。竟然要上传东西到服务器,你就得有一个上传的工具或者说你要有一个能够上传文件到服务器是方式,此处给出两种方式:


基于XShell实现Win与Linux文件传输(替换XFtp等)

IDEA的使用及常用配置(JDK、Maven等)

此教程中有配置SSH、SFTP的步骤,SFTP就可以上传上去,其实这两种方式都不太好,你可以安装一个专业的工具,如XFTP、FileZilla或者MobaXterm(强大的工具)也可以。


11、部署网站到服务器(无基础可先不操作)

其实,学习到这里,你已经具备了一些企业里面常用的操作了。比如,你可以将你前面的网站,部署到你的云服务器或者虚拟机上了,其实这两个非常相似,下面我就统称为服务器。注意,如果你想挑战一下,可以尝试一下,但是有一个前提,你的服务器需要安装好JDK。此处给出一个教程,你也可以不操作:

分布式集群环境之JDK8的安装与配置(Centos7)

注意:因为我们暂时还不是集群环境,所以此教程里同步到slave1、slave2的操作可以不操作,但是环境变量还是需要配置好的,可以对比前面的在Win上安装JDK做一个对比。上传好后,就可以进行运行了,因为是Springboot项目,没有用到数据库,所以可以直接java -jar xxxx.jar 直接执行。执行之后,直接在你的浏览器上打开相应的服务器ip(如果是云服务器需要写公网ip,并且打开该端口的安全组)并且加上相应的端口就可以了。


12、大数据集群环境的准备

到目前为止,你已经具备了Java和Linux基础了,这个时候就可以正式进入大数据的学习了,学习环境有两种:一种方式是虚拟机,在自己的电脑上安装3台或者4台虚拟机;另一种方式是购买云服务器(因为目前越来越多的学生已经接触云服务的相关知识,而且学校也有政策支持,所以也建议了解),直接购买3台或者4台服务器即可。之后的步骤其实都相类似了。过程非常简单,虚拟机的只需要克隆多几台即可,克隆后要配置好ip和主机名作为区分,而云服务器的则比较方便,可以在购买的时候设置好,也可以后面再设置好,可以自行搜索资料了解。


有了大数据的基础之后,就可以学习大数据了,请点赞、关注、评论,关注本博客,继续给你提供更多干货。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(3)
ODPS开发大全:入门篇
219 19
|
5月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(1)
ODPS开发大全:入门篇
521 14
|
6月前
|
分布式计算 Hadoop 分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
178 2
|
4月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
4月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
684 0
|
5月前
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
145 14
|
4月前
|
分布式计算 大数据 Java
Scala 入门指南:从零开始的大数据开发
Scala 入门指南:从零开始的大数据开发
|
5月前
|
存储 SQL 机器学习/深度学习
阿里云数加大数据计算服务MaxCompute学习路线图:从入门到精通
将所学知识应用于实际工作中并不断进行实践和创新是提升技术能力的关键所在。用户可以结合业务需求和技术发展趋势积极探索新的应用场景和解决方案,并在实践中不断总结经验和教训以提升自己的技术水平和实践能力。
|
5月前
|
分布式计算 大数据 Java
大数据开发语言Scala入门
大数据开发语言Scala入门
|
5月前
|
IDE 大数据 Java
「AIGC」大数据开发语言Scala入门
Scala,融合OOP和FP的多范式语言,在JVM上运行,常用于大数据处理,尤其与Apache Spark配合。要开始学习,安装Scala,选择IDE如IntelliJ。基础包括变量、数据类型、控制结构、函数。Scala支持类、对象、不可变数据结构、模式匹配和强大的并发工具。利用官方文档、教程、社区资源进行学习,并通过实践提升技能。
67 0