• 关于

    大数据spark 项目

    的搜索结果

回答

Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。主要特点: 分布式...
游客lu6fsp6mkfgcm 2022-04-03 17:20:41 0 浏览量 回答数 0

回答

为了方便大数据开发者快速找到相关技术问题和答案,开发者社区策划了大数据计算技术1000问内容,包含Flink、Spark等流式计算(实时计算)、离线计算、Hbase等实践中遇到的技术问题和面试问题等维度内容。我们会以...
问问小秘 2022-04-07 10:40:39 13573 浏览量 回答数 4

回答

生态圈对比:大数据领域一个项目的火热离不开相关的技术栈,Spark和Flink基于对底层数据和计算调度的高度抽象的内核(Core)开发出了批处理,流处理,结构化数据,图数据,机器学习等不同套件,完成对绝大多数数据...
bigbigtree 2022-04-03 22:29:53 0 浏览量 回答数 0

回答

Spark大数据技术还在如火如荼地发展,Spark中国峰会的召开,各地meetup的火爆举行,开源软件Spark也因此水涨船高,很多公司已经将Spark大范围落地并且应用。Spark使用者的需求已经从最初的部署安装、运行实例,到...
沉默术士 2022-04-07 02:00:29 2385 浏览量 回答数 1

回答

Databricks数据洞察(简称DDI)是基于Apache Spark的全托管大数据分析平台,内核引擎使用Databricks Runtime,并针对阿里云平台进行了优化。DDI同时提供了高效稳定的阿里云Spark服务,无需关心集群服务,只需专注在...
六月的雨在钉钉 2022-07-21 17:23:14 0 浏览量 回答数 0

回答

第7章,描述如何使用Spark上的SPSS开发推荐系统,用Spark处理大数据。第8章,将应用范围拓展到教育机构,如大学和培训机构,这里我们给出机器学习提升教育分析的一个真实的例子,预测学生的流失。第9章,以一个基于...
知与谁同 2022-04-07 02:00:23 2645 浏览量 回答数 1

回答

Hbase 相关试题 Storm 相关试题 大数据相关试题 面试|大数据相关试题-面试篇07 面试系列重新继续发布,下面这个是从网上搜来的,题目都是好题目,答案作为参考是可以的,作为学习素材,仅供大家参 考。简答说一下...
问问小秘 2022-04-07 10:11:04 3670 浏览量 回答数 3

回答

大数据领域,现在已经不缺少数据处理框架了,但是没有一个框架能够完全满足不同的处理需求。自从Apache spark出现后,貌似已经成为当今把大部分的问题解决得最好的框架了,所以我对另外一款解决类似问题的框架持有...
问问小秘 2022-04-03 06:01:57 0 浏览量 回答数 0

回答

随着业务需求对实时性方面要求的提高以及apache顶级项目的加持flink逐渐火热了起来,目前我们公司spark任务以及flink的流处理任务、批处理任务都在线上有使用案例,spark使用占70%,很多中小型企业未来可能不会选择...
静静的桑果 2022-04-06 17:27:39 654 浏览量 回答数 1

回答

准备Spark 下载安装Spark·开发 1)配置开发环境 2)下载demo工程 3)开发Spark作业·打包运行 1)打包项目 2)提交Spark作业 3.HadoopRDD – InputFormat 答复内容摘自《玩转HBase和Lindorm 大数据入门和实战》,这...
游客zvexcvxjsyxmm 2022-04-03 01:25:25 0 浏览量 回答数 0

回答

大数据作业开发和编辑,支持Hive,HiveSQL,MapReduce,Spark和Shell等作业类型的开发,详情请参见作业编辑。工作流开发和调度,通过拖拽构建工作流,并设置时间调度策略和工作流之间依赖,详情请参见工作流编辑。...
Puppet 2022-04-03 22:31:34 0 浏览量 回答数 0

回答

Spark在S3上读取大数据集时,在“停机时间”期间发生了什么?国内基于Hadoop开发的大数据平台有哪些?有啥优势?怎么在flink上面部署机器学习相关的算法呢?用python写flink程序,从哪里import各种operation?在...
问问小秘 2022-04-07 10:05:38 646 浏览量 回答数 1

回答

我在我的项目中调试dataframe.take(1)。Total size of serialized results of 13 tasks(1827.6 MB)is bigger than spark.driver.maxResultSize(1024.0 MB)这知道这可以通过设置spark.driver.maxResultSizeparam 来...
社区小助手 2022-04-06 16:26:32 2600 浏览量 回答数 1

回答

我的SPARK项目(用Java编写)需要跨执行程序访问(SELECT查询结果)不同的表。这个问题的一个解决方案是:我创建了一个tempView选择所需的列使用forEach转换DataFrame为Map。将该映射作为跨执行器的广播变量传递。...
社区小助手 2022-04-06 16:48:25 1454 浏览量 回答数 1

回答

高校大数据实训平台,武汉数道云科技提供超过100个课时的hadoop、spark大数据主流课程,课程与大数据实验机完美结合,学员通过大数据教学管理系统在线学习,同时进行实验操作。课程内容包括大数据项目设计、数据...
sdydata 2022-04-03 03:34:20 0 浏览量 回答数 0

回答

高校大数据实训平台,武汉数道云科技提供超过100个课时的hadoop、spark大数据主流课程,课程与大数据实验机完美结合,学员通过大数据教学管理系统在线学习,同时进行实验操作。课程内容包括大数据项目设计、数据...
sdydata 2022-04-03 03:37:07 0 浏览量 回答数 0

回答

提供超过100个课时的hadoop、spark大数据主流课程,课程与大数据实验机完美结合,学员通过大数据教学管理系统在线学习,同时进行实验操作。课程内容包括大数据项目设计、数据采集、数据清洗、建模、数据可视化、...
sdydata 2022-04-03 03:34:18 0 浏览量 回答数 0

回答

由加州大学伯克利分校的AMPLabs开发,作为Berkeley Data Analytics Stack(BDAS)的一部分,当下由大数据公司Databricks保驾护航,更是Apache旗下的顶级项目,下图显示了Apache Spark堆栈中的不同组件。
游客k7rjnht6hbtk6 2022-04-03 17:51:25 0 浏览量 回答数 0

回答

emr-core:支持Hadoop/Spark与OSS数据源的交互,默认已经存在集群的运行环境中,作业打包时 不需要将emr-core打进去。emr-tablestore:支持Hadoop/Hive/Spark与OTS数据源的交互,使用时需要打进作业Jar包。emr-mns_2....
nicenelly 2022-04-07 05:55:38 1398 浏览量 回答数 0

回答

Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目项目是用Scala进行编写。
游客k7rjnht6hbtk6 2022-04-03 17:49:30 0 浏览量 回答数 0

回答

为大规模科学计算设计的:大数据引擎编程接口对科学计算不太友好,框架设计不是为科学计算模型考虑的 传统科学计算基于单机,大规模科学计算需要用到超算 Tips科学计算:计算机梳理数据:Excel->数据库(MySQL)->...
游客wyvq5mjsckydw 2022-04-03 01:30:30 0 浏览量 回答数 0

回答

随着雅虎对Hadoop的开源,越来越多的大数据处理技术开始涌入人们的视线,例如目前比较流行的大数据处理引擎Apache Spark,基本上已经取代了MapReduce成为当前大数据处理的标准。但随着数据的不断增长,新技术的不断...
令人无语的八阿哥 2022-04-03 04:49:22 0 浏览量 回答数 0

回答

规模存储:超大规模存储自动扩容,最大可支持EB级别的数据。高性能:同时性能更稳定;如1TB数据规模的TPC-DS,MaxCompute比Spark 快28%,比Hive快76%,比Impala快7%。低成本:相比自建降低30%以上成本。安全:原生...
游客7ygkl73u5msna 2022-04-03 01:10:42 0 浏览量 回答数 0

回答

在使用hive进行数仓项目数据管理时,由于地层使用FDFS分布式存储,磁盘空间充足,冗余的数据不会造成困扰,另一方面,hive查询引擎的原因,过多表格直接的join会引发spark产生过多的shuffle流程(如果使用MR会产品过多的...
游客wyvq5mjsckydw 2022-04-03 01:00:43 0 浏览量 回答数 0

回答

数据准备 HDFS是Hadoop/Spark批处理作业最常用的数据存储之一,目前阿里云的HDFS也已经开始公测。本文将演示在HDFS中创建一个文件,并在Spark应用中进行访问。1、开通HDFS服务,并创建文件系统 2、设置权限组 1、...
小天使爱美 2022-04-03 22:34:42 0 浏览量 回答数 0

回答

1.官方的使用导出CSV或者其它JSON格式的方式,再导入mongodb可以做,但是效率性能太差了。...5.迁移后大数据查询,可以使用Spark+MongoDB的方案,目前国内中国东航这样做,国外也有大数据方案的案例。
徐雷frank 2022-04-03 00:37:56 0 浏览量 回答数 0

回答

我有一个包含两列的数据框,其中每一行都有一个稀疏向量。我试图找到一种合适的方法来计算每行中两个向量的余弦相似度(或只是...我觉得计算每对的所有余弦相似度太麻烦了,而我只需要在我(非常)的数据帧中使用它。
社区小助手 2022-04-06 16:50:18 3736 浏览量 回答数 1

回答

1、直接选择Java,你会Java,语法简单,APi都是一致的,2、我不是大神,Spark开发,虽然...3、作为项目使用,做大数据分析,建议使用Java,没有必要学习一门新语言。增加成本和复杂度。4、Java顺手,以后的扩展也方便
徐雷frank 2022-04-03 00:54:33 0 浏览量 回答数 0

回答

emr-core:支持Hadoop/Spark与OSS数据源的交互,默认已经存在集群的运行环境中,作业打包时[backcolor=transparent]不需要 将emr-core打进去。emr-tablestore:支持Hadoop/Hive/Spark与OTS数据源的交互,使用时需要打...
nicenelly 2022-04-07 05:14:29 1488 浏览量 回答数 0

回答

次年,RocketMQ 顺利从基金会毕业,成为Apache顶级开源项目,与 Apache Hadoop,Apache Spark 一起为全球分布式、大数据领域的开发者带来福音。然而,在云原生时代的今天,RocketMQ 作为有状态的分布式服务系统,...
游客cum3jectrqmmy 2022-04-03 04:12:25 0 浏览量 回答数 0

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化