• Kubernetes如何助力Spark大数据分析

    kubectl exec-it spark-oss-online2-worker-57894f65d8-fmzjs-/opt/spark/bin/spark-shell-master spark:/spark-oss-online2-master:7077 粘贴下列代码,使用Spark测试OSS的读写性 Save RDD to OSS bucket val ...
    文章 2018-04-04 2370浏览量
  • X-Pack Spark 访问OSS

    本文主要介绍通过Spark操作OSS数据的常见方式,代码以Scala为例。本文的代码可以通过“数据工作台”提交。前置条件 OSS已经创建bucket,假设名称为:test_spark 已创建具备读写OSS bucket:test_spark权限的用户。假设...
    文章 2019-10-28 708浏览量
  • 数据湖实操讲解【OSS 访问加速】第六讲:Hadoop/Spark...

    com.aliyun.emr.fs.oss.JindoOssFileSystem --confspark.hadoop.fs.jfs.cache.oss.accessKeyId=xxx-conf spark.hadoop.fs.jfs.cache.oss.accessKeySecret&61;xxx-conf spark.hadoop.fs.jfs.cache.oss.endpoint&61...
    文章 2021-05-26 1065浏览量
  • OSS 数据湖实践 —— EMR+OSS入门

    在使用spark 操作oss中的数据之前,您需要在本地安装MAVEN、JAVA、SCALA环境,以及在E-MapReduce上创建Hadoop集群。1、在本地安装JAVA、MAVEN、SCALA环境;2、登录阿里云E-MapReduce控制台,创建Hadoop集群(可选...
    文章 2020-05-26 1138浏览量
  • OSS数据湖实践——EMR+Spark+OSS案例

    本文介绍大数据分析引擎spark 基于EMR集群,利用OSS云存储数据,实现一个简单的分析案例。前提条件 已注册阿里云账号,详情请参见注册云账号。已开通E-MapReduce服务和OSS服务。已完成云账号的授权,详情请参见角色...
    文章 2020-05-26 1305浏览量
  • 阿里云E-MapReduce Spark 作业配置

    您可以单击选择 OSS 路径,从 OSS 中进行浏览和选择,系统会自动补齐 OSSSpark 脚本的绝对路径。请务必将默认的“oss”协议切换成“ossref”协议。创建 pyspark 作业 E-MapReduce 除了支持 Scala 或者 Java 类型...
    文章 2017-09-01 1958浏览量
  • OSS重磅推出OSS Select——使用SQL选取文件的内容

    OSS Select团队,创建了一个Spark的示例,基于OSS Select,实现 Spark Data Source API。假设,您需要从大量的人员名单中,查询符合条件的人员信息。比如查询50岁以上,姓名中包含Tom的目标人员。使用OSS Select提升...
    文章 2018-05-17 25449浏览量
  • Spark读写OSS并使用OSS Select来加速查询

    Spark读写OSS 基于这篇文章搭建的CDH6以及配置,我们来使Spark能够读写OSS(其他版本的Spark都是类似的做法,不再赘述)。由于默认Spark并没有将OSS的支持包放到它的CLASSPATH里面,所以我们需要执行如下命令下面的...
    文章 2018-11-01 3282浏览量
  • OSS Select应用实践与使用技巧系列

    Spark+OSS Select快速上手:Spark读写OSS,并使用OSS Select来加速查询 OSS Select介绍和SDK中使用Select示例 即时查询和分析OSS上更多数据,可以使用Data Lake Analytics+OSS,参考:Data Lake Analytics+OSS数据文件...
    文章 2018-11-09 4628浏览量
  • MaxCompute Spark开发指南

    conf.set("spark.hadoop.fs.oss.accessKeySecret","*") conf.set("spark.hadoop.fs.oss.endpoint", oss-cn-hangzhou-zmf.aliyuncs.com") Step 1.build aliyun-cupid-sdk Step 2.properly set spark.defaults.conf ...
    文章 2019-03-04 3815浏览量
  • 第二十讲:SparkOSS 上的 ORC 数据进行查询加速

    三、性能对比Spark 性能对比 – 配置Spark 性能对比 – 结果端到端总时间缩短23.6%四、演示配置 Spark读取鸢尾花数据集以 ORC 格式写入 OSS 路径从 OSS 查询鸢尾花数据集相关文档链接&xff1a;Jindodata 相关文档&xff1...
    文章 2021-07-22 196浏览量
  • 重磅:阿里云 JindoFS SDK 全面开放使用,OSS 文件...

    使用场景:用Spark查询OSSspark使用自带的hadoop client包,因此我们需要把JindoFS SDK也复制到spark目录。cp./jindofs-sdk-*.jar spark-2.4.6/jars/ 然后执行spark-sql去查询Hive的OSS表 bin/spark-sql select*...
    文章 2020-07-09 3012浏览量
  • E-MapReduce支持计算与存储分离,成本下降1倍

    架构其实比较简单,OSS作为默认的存储,Hadoop、Spark可以作为计算引擎直接分析OSS存储的数据。以上比较了计算与存储分离的优缺点。灵活性:在《E-MapReduce(Hadoop)10大类问题之集群规划》一文中分析了集群规划问题...
    文章 2018-11-05 1323浏览量
  • 第十九讲:SparkOSS 上的 Parquet 数据进行查询...

    且 Parquet 文件已存放至JindoFS 或 OSS Spark 使用 JindoFS 计算加速&xff1a;添加配置 spark.sql.extensions&61;com.aliyun.emr.sql.JindoTableExtension三、演示演示内容&xff1a;Spark 2.4 使用 JindoFS 计算加速 ...
    文章 2021-07-21 218浏览量
  • Spark on ECI大数据分析

    借助阿里云的容器服务Kubernetes版(ACK)、弹性容器组实例(ECI)、文件存储HDFS或者对象存储OSS提供灵活弹性计算资源弹性可扩展、计算与存储分离架构、成本可控的Spark on ECI解决方案实践。解决问题 计算资源弹性...
    文章 2020-07-14 237浏览量
  • 基于Spark Streaming 进行 MySQL Binlog 日志准实时...

    conf.set("spark.hadoop.fs.oss.accessKeySecret","YourSecret") conf.set("spark.hadoop.job.runlocal","true") conf.set("spark.hadoop.fs.oss.impl","com.aliyun.fs.oss.nat.NativeOssFileSystem") conf.set(...
    文章 2019-03-11 10076浏览量
  • 使用 Data Lake Formation(DLF)进行 Tablestore 数据...

    本文介绍使用 Data Lake Formation(DLF)服务,实时订阅 Tablestore(原 OTS)的数据,并以 Delta Lake 的格式投递进入 OSS,构建实时数据湖。架构介绍 表格存储是一种全托管的云原生数据库,使用表格存储您无需...
    文章 2021-01-05 271浏览量
  • 【数据湖 JindoFS+OSS 实操干货36讲】直播预告来袭!

    背景介绍JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。JindoFS 项目包括 JindoFS OSS ...
    文章 2021-05-08 390浏览量
  • 玩转阿里云EMR三部曲-入门篇

    阿里云EMR全称是阿里云elastic mapreduce,各位不要被字面疑惑只是和mapduce相关,实际阿里云EMR包含yarn,zk,spark等诸多组件,并且能融合flink,kafka等最新的开源框架,结合OSS服务可以产生1+1>2的效果 EMR...
    文章 2019-08-02 2770浏览量
  • 玩转阿里云EMR三部曲-入门篇

    阿里云EMR全称是阿里云elastic mapreduce,各位不要被字面疑惑只是和mapduce相关,实际阿里云EMR包含yarn,zk,spark等诸多组件,并且能融合flink,kafka等最新的开源框架,结合OSS服务可以产生1+1>2的效果 EMR...
    文章 2019-08-01 2361浏览量
  • 如何在E-MapReduce中玩转OSS

    有了OSS存储数据,我们接下来要面对的问题是如何在MR,Hive,Pig以及Spark作业中支持OSS数据源。虽然作业种类很多,但追根溯源,我们发现只要在Hadoop上实现对OSS的支持即可。Hive和Pig实际上就是分解成很多个MR作业...
    文章 2016-03-24 6981浏览量
  • 数据湖实操讲解【JindoFS 缓存加速】第十二讲:Spark ...

    Spark 访问 OSS 透明缓存加速讲师&xff1a;辰山&xff0c;阿里巴巴计算平台事业部 EMR 技术专家内容框架&xff1a;JIndoFS 缓存模式简介Spark 访问 OSS 的缓存加速缓存效果实操演示直播回放链接&xff1a;xff08;12讲&xff09;...
    文章 2021-06-23 1464浏览量
  • 9.24直播预告|DLA Serverless Spark技术解析-让您的...

    相约周四(9月24号)下午4点哦~ ...本次分享将向您介绍Serverless Spark的架构实现,对OSS访问的内核加速,以及为何相比传统集群模式性价比提升的奥秘。参与方式: 钉钉扫描下方海报二维码进群观看直播
    文章 2020-09-22 401浏览量
  • JindoFS解析-云上大数据高性能数据湖存储方案

    EMR 现有的计算存储分离方案是基于OSS提供兼容Hadoop文件系统的OssFS,用户通过OssFS 可以访问OSS 上的数据,因此OssFS 保留了OSS的一些优势,比如提供海量存储,成本低,高可靠等,同时也存在一些问题比如文件重...
    文章 2019-10-10 12897浏览量
  • 使用EMR来进行mysqlbinlog日志准实时传输

    conf.set("spark.hadoop.fs.oss.accessKeySecret","YourSecret") conf.set("spark.hadoop.job.runlocal","true") conf.set("spark.hadoop.fs.oss.impl","com.aliyun.fs.oss.nat.NativeOssFileSystem") conf.set(...
    文章 2018-01-04 3890浏览量
  • 基于 MySQL+Tablestore 分层存储架构的大规模订单系统...

    数据分析下面将展示如何使用 Spark 对接 OSS&xff0c;并完成如下需求&xff0c;统计各店铺历史总交易额&xff0c;并将结果数据入库创建集群创建阿里云E-MapReduce的Hadoop集群&xff0c;文档参见创建集群。登录 Spark-sql ...
    文章 2021-08-30 79浏览量
  • 和封神一起“深挖”Spark

    Spark常见的问题包括卡住、内存溢出、GC频繁。随着Spark 2.0的发布,Spark逐渐趋于成熟,未来Spark的发展方向: 支持ANSI SQL 性能接近MPP数据仓库 一切基于优化(Catalyst) 新硬件的支持,比如:大内存、GPU 更加...
    文章 2016-08-24 10037浏览量
  • Hadoop默认支持集成OSS,作为Hadoop兼容的文件系统

    Spark读写OSS示例:Spark读写OSS并使用OSS Select来加速查询 参考文档 [Hadoop-Aliyun module:Integration with Aliyun Web Services]...
    文章 2017-12-18 11240浏览量
  • Databricks 数据洞察-企业级全托管 Spark 大数据分析...

    提升计算引擎效率和数据读写效率企业级高性能、稳定性、可靠性03\ 企业级 Databricks Runtime vs 社区版 Open Source Spark04\ 基于计算存储分离的架构,HDFS vs OSS 成本的对比05\ 基于 JindoFS 进行 OSS 访问优化...
    文章 2021-05-24 940浏览量
  • 【数据湖 JindoFS+OSS 实操干货36讲】正式上线!

    OSS 实操干货36讲】正式上线&xff01;课程地址&xff1a;https://developer.aliyun.com/learning/course/833背景介绍JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案&xff0c;完全兼容 Hadoop/Spark 生态&xff0c;并...
    文章 2021-08-10 52浏览量
1 2 3 4 ... 18 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化