文档备案控制台

开发者社区开发与运维文章正文

spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包自带案例全面详解（java、python、r和scala）之环境准备（图文详解）

2017-02-26 901

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

　　关于下载，这两个spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包不多赘述。

http://archive.apache.org/dist/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz

http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.6.tgz

　　我是解压在D:\SoftWare方便为了导入其中的所需jar包

这里，我是在Scala IDEA for Eclipse里，手动来构建spark-1.6.1-bin-hadoop2.6和spark-2.2.0-bin-hadoop2.6发行包的scala代码环境

这里，我是在Scala IDEA for Eclipse里，手动来构建spark-1.6.1-bin-hadoop2.6发行包的java代码环境

　　D:\SoftWare\spark-1.6.1-bin-hadoop2.6\lib下的所有

　　

　　zhouls.bigdata.Basic、zhouls.bigdata.sql、zhouls.bigdata.streaming、zhouls.bigdata.ml、zhouls.bigdata.mllib

　　然后，再分别复制进去，不多说。

这里，我是在Scala IDEA for Eclipse里，手动来构建java代码环境

D:\SoftWare\spark-2.2.0-bin-hadoop2.6\jars

zhouls.bigdata.Basic、zhouls.bigdata.sql、zhouls.bigdata.streaming、zhouls.bigdata.ml、zhouls.bigdata.mllib

　　成功！

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/7454674.html，如需转载请自行联系原作者

文章标签：

Java

Python

SQL

Apache

Web App开发

大数据

关键词：

Python java

apache spark Hadoop

技术小哥哥

目录

相关文章

蒋星熠Jaxonic

|

8月前

|

数据采集监控数据库

Python异步编程实战：爬虫案例

🌟 蒋星熠Jaxonic，代码为舟的星际旅人。从回调地狱到async/await协程天堂，亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验，助你驾驭并发，在二进制星河中谱写极客诗篇。

蒋星熠Jaxonic

660 3 3

Python异步编程实战：爬虫案例

Echo_Wish

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

734 79 80

站大爷

|

9月前

|

设计模式缓存运维

Python装饰器实战场景解析：从原理到应用的10个经典案例

Python装饰器是函数式编程的精华，通过10个实战场景，从日志记录、权限验证到插件系统，全面解析其应用。掌握装饰器，让代码更优雅、灵活，提升开发效率。

站大爷

605 0 0

武子康

|

分布式计算 Kubernetes Hadoop

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

武子康

1070 6 6

武子康

|

分布式计算资源调度 Hadoop

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

武子康

502 2 2

小白学大数据

|

数据采集缓存 Java

Python vs Java：爬虫任务中的效率比较

Python vs Java：爬虫任务中的效率比较

小白学大数据

808 1 1

奔跑的数据

|

数据采集自然语言处理 Java

Playwright 多语言一体化——Python/Java/.NET 全栈采集实战

本文以反面教材形式，剖析了在使用 Playwright 爬取懂车帝车友圈问答数据时常见的配置错误（如未设置代理、Cookie 和 User-Agent），并提供了 Python、Java 和 .NET 三种语言的修复代码示例。通过错误示例 → 问题剖析 → 修复过程 → 总结教训的完整流程，帮助读者掌握如何正确配置爬虫代理及其它必要参数，避免 IP 封禁和反爬检测，实现高效数据采集与分析。

奔跑的数据

760 3 3

Playwright 多语言一体化——Python/Java/.NET 全栈采集实战

小白学大数据

|

11月前

|

数据采集存储 NoSQL

Python爬虫案例：Scrapy+XPath解析当当网网页结构

Python爬虫案例：Scrapy+XPath解析当当网网页结构

小白学大数据

496 0 0

Deephub

|

12月前

|

数据可视化算法数据挖掘

Python 3D数据可视化：7个实用案例助你快速上手

本文介绍了基于 Python Matplotlib 库的七种三维数据可视化技术，涵盖线性绘图、散点图、曲面图、线框图、等高线图、三角剖分及莫比乌斯带建模。通过具体代码示例和输出结果，展示了如何配置三维投影环境并实现复杂数据的空间表示。这些方法广泛应用于科学计算、数据分析与工程领域，帮助揭示多维数据中的空间关系与规律，为深入分析提供技术支持。

Deephub

479 0 0

Python 3D数据可视化：7个实用案例助你快速上手

奔跑的数据

|

数据采集自然语言处理 JavaScript

Playwright多语言生态：跨Python/Java/.NET的统一采集方案

随着数据采集需求的增加，传统爬虫工具如Selenium、Jsoup等因语言割裂、JS渲染困难及代理兼容性差等问题，难以满足现代网站抓取需求。微软推出的Playwright框架，凭借多语言支持（Python/Java/.NET/Node.js）、统一API接口和优异的JS兼容性，解决了跨语言协作、动态页面解析和身份伪装等痛点。其性能优于Selenium与Puppeteer，在学术数据库（如Scopus）抓取中表现出色。行业应用广泛，涵盖高校科研、大型数据公司及AI初创团队，助力构建高效稳定的爬虫系统。

奔跑的数据

820 2 3

Playwright多语言生态：跨Python/Java/.NET的统一采集方案

热门文章

最新文章

Elasticsearch hadoop使用示例 & 运维实战之集群规划 &presto-elasticsearch connector

【云计算与大数据技术】Hadoop MapReduce的讲解（图文解释，超详细必看）

云计算与大数据实验二 Hadoop的安装和集群的搭建

处理hadoop发送的文件到后台并解析存储到数据库策略

hadoop节点HDFS数据块（Block）

Hbase的安装（hadoop-2.6.0,hbase1.0)

Hive执行脚本: Return Code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask

hadoop集群常见问题解决

Hadoop2.7实战v1.0之Linux参数调优

【大数据处理框架】Hadoop大数据处理框架，包括其底层原理、架构、编程模型、生态圈

豆瓣评分9.6！有趣又实用的典范，Python小白应该人手一份！

一步步教你将包含其他文件的 Python 脚本等打包成 EXE

怎么把Python脚本打包成可执行程序？

豆瓣评分9.6！用81个项目带你从Python 3零基础到Python自动化

Python中的封装

Python中的类与对象

Python中的JSON数据格式转换

Python文件的异常、模块与包

Python文件读取操作详解

Python文件编码概念详解

相关课程

更多

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

Scala核心编程 - 进阶

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

大数据实时计算框架Spark快速入门

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

推荐镜像

更多

python-release

下一篇

阿里云新品发布AI DeepSign，为AI生成作品赋予可信身份证