开源大数据平台 E-MapReduce
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。
开源大数据周刊-第69期
资讯: 阿里巴巴成立达摩院,三年1000亿旨在创造颠覆性基础技术 10 月 11 日,2017 杭州·云栖大会开幕。会上,阿里巴巴集团首席技术官张建锋宣布阿里巴巴成立全球研究院达摩院,进行基础科学和颠覆式技术创新研究,并将在未来 3 年投入 1000 亿元进行基础科学研发。
开源大数据周刊-第68期
资讯: 2020年我国大数据产业将破万亿 近日,《2017中国大数据产业发展白皮书》发布。《每日经济新闻》记者对照工信部及各地出台的大数据发展规划进行梳理后发现,到2020年,我国大数据相关产品和服务业务收入将突破1万亿元,年均复合增长率保持30%左右。
E-MapReduce HDFS文件快速CRC校验工具介绍
在大数据应用场景下经常有数据文件的迁移工作,如果保障迁移之后数据的完整性是一个很常见的问题。本文就给大家介绍一下在大数据场景下,如何用工具快速对比文件。
在E-MapReduce集群内运行Spark GraphX作业
Spark GraphX是一个比较流行的图计算框架,如果你使用了阿里云的E-MapReduce服务,可以很方便的运行图计算的作业。 下面以PageRank为例,看看如何运行GraphX作业
开源大数据周刊-第58期
阿里云E-Mapreduce动态: EMR即将在新的版本中支持本地盘机型,大幅降低集群的存储成本。 资讯 借助亚马逊AWS Sno大数据如何改变垂直电商? 垂直电商仍旧将是平台电商们在未来极其有力的竞争者和合作者。
开源大数据周刊-第56期
阿里云E-Mapreduce实践: 使用hadoop restful api实现对集群信息的统计 资讯 全球因Hadoop服务器配置不当导致的数据泄露或达5120TB 网络犯罪分子近期开始针对配置不当的 Hadoop Clusters 与 CouchDB 服务器展开攻击活动。
使用hadoop restful api实现对集群信息的统计
本文根据hadoop/spark的RESTful API,实现了对集群基本信息的统计功能,包括HDFS文件系统、job情况、资源队列情况的统计。这些API只提供了基础的数据,具体的统计与分析,还需要基于这些基础数据做一些简单的开发。
EMR集群上capacity scheduler的ACL实现
本文接着yarn capacity scheduler的实现原理,介绍了capacity scheduler的设置和其中需要注意的问题,并结合EMR集群做了实际操作实验。
开源大数据周刊-第52期
利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制 本文结合EMR集群,讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。
利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制
本文结合EMR集群,讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。
开源深度学习库BigDL在阿里云E-MapReduce上的实践
近些年来机器学习中的子领域深度学习成为一个热门的话题。本文要介绍Intel开源的深度学习框架BigDL,它也是在Spark上的一个算法库,提供了全面的深度学习算法支持,包括数值计算(Tensor)和高阶神经网络等。
开源大数据周刊-第45期
阿里云E-MapReduce实践 云HBase助力物联网建设 物联网最大的特点写入量大,要求延迟低,且数据存量巨大。云HBase非常满足物联网存储需求,存储数P甚至百P的空间存储需求,延迟稳定在数毫秒之内,跟Hadoop分析体系有较为深入的结合,满足分析类的需求。
开源大数据周刊-第43期
阿里云E-MapReduce动态 E-MapReduce发布新版本,可以在控制台管理meta表结构。 资讯 人脸识别,要靠哪些技术支撑,是否会泄露个人隐私? 本文介绍人脸识别用到哪些技术,讨论如何保护用户隐私 一图看懂AI阵营:学习AI 站错队可导致自取灭亡 本文介绍现在AI技术阵营,对AI各流派进行细分,梳理了17种方法,并用 图直观展现。
E-MapReduce中Spark 2.x读写MaxCompute数据
最新的`aliyun-emapreduce-sdk`将`MaxCompute`数据以`DataSource`的方式接入Spark 2.x,用户可以使用类似Spark 2.x中读写`json/parquet/csv`的方式来访问MaxCompute.
开源大数据周刊-第42期
阿里云E-MapReduce动态 阿里云HBase支持PB级别的分布式数据库即将开始公测 资讯 云时代的大数据存储-云HBase 纵观数据库发展的几十年,从网状数据库、层次数据库到RDBMS数据库,在最近几年的NewSQL的兴起,加上开源的运动,再加上云的特性,可以说是日新月异。
开源大数据周刊-第38期
本期关注:梨视频基于阿里云E-MapReduce搭建视频推荐系统的实践,Apache Eagle成为新的顶级项目,英特尔开源的分布式深度学习库BigDL,Hadoop 3.0新功能测评
开源大数据周刊-第37期
[阿里云E-MapReduce动态] E-MapReduce 2.3.1镜像主版本发布基础镜像CentOS 6.5内核版本升级到2.6.32-642;并支持job failover 资讯 2017年数据领域的八大发展趋势 在2017年数据社区将会有大量的机会出现,并伴随一些危机性的挑战,
梨视频:基于阿里云E-MapReduce搭建视频推荐系统的实践
梨视频由前澎湃新闻掌门人邱兵创立。 在上线之前,它就获得了黎瑞刚华人文化近1亿美元投资,旗下《微辣》栏目总播放量已经超过4亿,并在上线1个月后获得“年度视频新媒体”大奖。 这样一款脱胎于传统媒体的创业型短视频软件,在视频领域异军突起,不仅让内人士在感叹梨视频内容生产力之强大的同时,也诧异于是谁在
首次揭秘|为6.4亿人次出行提供无线网络的技术架构
借助“互联网+大数据+机场”三轮驱动,掌慧纵盈每年为6.4亿人次出行提供无线网络连接服务。 随着业务的拓展,随之后来的挑战是数据量的暴增。 2016年,掌慧纵盈(股票代码:835736)通过阿里云产品,率先构建了业界领先的大数据平台。 本文阐述了一家物联网企业的业务架构和数据架构,以及技术选型
如何在E-MapReduce上使用引导操作安装kafka组件
当前emr最新版本2.1.1没有kafka组件,需要额外安装。本文介绍如何用E-MapReduce引导操作来安装kafka_2.10-0.10.0.0版本。
使用E-MapReduce服务处理阿里云文件存储(NAS)的数据
给大家介绍一个使用场景,可以将E-MapReduce的Hadoop作业和文件存储(NAS)结合在一起,发挥分布式存储和分布式计算在一起的威力
使用E-MapReduce服务将Kafka数据导入OSS
kafka是一个开源社区常用的消息队列,虽然kafka官方(Confluent公司)提供插件从Kafka直接导入数据到HDFS的connector,但对阿里云对文件存储系统OSS却没有官方的支持。本文会举一个简单的例子,实现kafka的数据写入阿里云OSS。因为阿里云E-MapReduce服...
HIVE MapJoin异常问题处理总结
HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。