开源大数据平台 E-MapReduce的搜索结果_热门

winx_19970108018

|

博文

|

来自：大数据与机器学习

1688API接口推荐：1688按图搜索拍立淘数据接口

# 开源大数据平台 E-MapReduce # 机器学习/深度学习 # 算法 # API # 开发工具 # 开发者

墨祤

|

10月前

|

博文

|

来自：大数据与机器学习

基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析

阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上，提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据，提供湖仓数据表和文件的安全访问及IO加速，并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎，通过流式数据湖仓Paimon（使用DLF 2.0存储）和EMR StarRocks搭建流式湖仓。

# 云原生数据仓库AnalyticDB MySQL版 # 域名与网站 # 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 实时计算 Flink版 # 专有网络VPC # SQL # 流计算 # 关系型数据库 # MySQL # 数据库

阿里云大数据

|

7月前

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈，微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark，微财突破了单机训练使用的数据规模瓶颈，大幅提升了训练效率，解决了存算分离架构下 Shuffle 稳定性和性能困扰，为智能风控等业务提供了强有力的技术支撑。

# 函数计算 # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 机器学习/深度学习 # 分布式计算 # 大数据 # Serverless # Spark

鸿初

|

博文

|

来自：大数据与机器学习

hive在E-MapReduce集群的实践（二）集群hive参数优化

本文介绍一些常见的集群跑hive作业参数优化，可以根据业务需要来使用。提高hdfs性能修改hdfs-site，注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs.

# 开源大数据平台 E-MapReduce # SQL # 大数据 # HIVE

鸿初

|

博文

|

来自：大数据与机器学习

Presto实现原理（转）

Presto架构 Presto查询引擎是一个Master-Slave的架构，由一个Coordinator节点，一个Discovery Server节点，多个Worker节点组成，Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句，生

# 开源大数据平台 E-MapReduce # 云解析DNS # SQL # 缓存 # 大数据 # Java # HIVE

寒沙牧

|

博文

|

来自：大数据与机器学习

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能，用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

# 开源大数据平台 E-MapReduce # SQL # 调度 # 分布式计算 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

使用Spark SQL进行流式机器学习计算（上）

什么是流式机器学习，机器学习模型获取途径，系统演示

# 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 机器学习/深度学习 # SQL # 分布式计算 # 算法 # Spark # 关系型数据库 # RDS # 数据可视化 # 开发工具 # git

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析，为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展，同时预测了Spark 3.0即将重磅发布的新功能。

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # GPU云服务器 # 云原生大数据计算服务 MaxCompute # 对象存储 # 机器学习/深度学习 # 存储 # 分布式计算 # Apache # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake

Hadoop开源生态Spark已经发展三年有余，今年迎来了Spark 3.0。在2019杭州云栖大会大数据&AI峰会上，Databricks研发总监李潇为大家分享了Spark 3.0版本的新特性，以及其在数据工程以及数据科学方面带来的新技术。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark # Python # 大数据 # API # Apache # SQL # 数据处理 # 开发者 # Hadoop

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Spark Relational Cache实现亚秒级响应的交互式分析

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上，阿里巴巴技术专家王道远为大家分享了阿里云EMR的Spark Relational Cache实现亚秒级响应的交互式分析。

# 开源大数据平台 E-MapReduce # 分布式计算 # Spark # 存储 # 缓存 # SQL # 数据挖掘 # 对象存储 # 数据库 # 索引 # 大数据

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce