基于 MaxCompute 的极速的基因测序分析
转载自yizhuo 基因、测序、分析 基因,生命的基本因素,是人类和其他生物的基础遗传物质。人有 23 对染色体,总共记录了大约 3Gb 个碱基(这里的 b 是 base,即碱基,可不是 bit,参考这里),每个位置上的碱基可能是 ATCG 中的一个。简单理解起来,就是有了这 3Gb 长的字
用 MaxCompute Studio 查看作业排队详情
本文首先对MaxCompute作业执行的各个阶段进行说明,然后以MaxCompute Studio为例,说明如何查看作业排队位置,查看队列详情以及作业状态转换历史信息。
Spark Operator浅析
Spark Operator浅析 本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构 经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.
索引压缩算法New PForDelta简介以及使用SIMD技术的优化
New PForDelta算法介绍 倒排索引的数据包括docid, term frequency, term position等,往往会占用很大的磁盘空间,需要进行压缩。压缩算法需要考虑两点:压缩效果和解压缩效率。
Structured Streaming VS Flink
Flink是标准的实时处理引擎,而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的,不过现在Spark Streaming已经非常稳定基本都没有更新了,然后重点移到spark sql和structured Streaming了。
Flink入坑指南 第四章:SQL中的经典操作Group By+Agg
Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。 简介 Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作,agg的全称是aggregation(聚合操作),是一类SQL算子的统称,Flink中最常用的Agg操作有COUNT/SUM/AVG等,详情参见Flink支持的聚合操作列表。
阿里云与国家天文台成立天文大数据联合研究中心
免费开通大数据服务:https://www.aliyun.com/product/odps 2017 年 1 月 22 日,中国科学院国家天文台与阿里云正式成立“天文大数据联合研究中心”。 中国科学院国家天文台与阿里云在京举办了合作协议签字暨研究中心揭牌活动。
MySQL/RDS数据如何同步到MaxCompute之实践讲解
大数据计算服务(MaxCompute,原名ODPS)是阿里云提供的一种快速、完全托管的EB级数据仓库解决方案。本文章中阿里云MaxCompute公有云技术支持人员刘力夺通过一个实验向大家介绍了阿里云关系型数据库产品RDS中的MySQL数据如何同步到MaxCompute,帮助用户大体了解MaxCompute产品以及其数据同步过程。
一键扩容E-MapReduce集群,运维SO EASY
一键扩容E-MapReduce集群,运维SO EASY 谈到集群运维,我们不得不说说集群的扩容。随着业务量的增长,数据也会跟着增长,这样我们的集群规模也不得不跟着进行扩容。那么集群如何进行扩容呢,我们分下面的两个场景跟大家介绍一下 1. IDC机房集群扩容。当我们集群需要扩容的时候,一般会经过下
Python on MaxCompute之UDF操作命令行
语法: add py [comment 'cmt'][-f]; 说明:local_file.py:.py文件 注册函数 语法: CREATE FUNCTION AS USING ; 说明: function_name:UDF函数名,这个名字就是SQL中引用该函数所使用的名字。
【上海Meetup回放视频+PPT下载整理】Elasticsearch Meetup系列第二期
7月21日13:30 举办了Elasticsearch Meetup系列第二期, 我们邀请了Elastic架构师 Monash大学计算机硕士吴斌,和大家分享如何利用Elastic Stack快速搭建SIEM系统; eBay 软件工程师丁旻奕、王佩,和大家分享Elasticsearch diagn.
使用Elasticsearch快速搭建食谱搜索系统
搜索是一个网站的基础功能,一个好的搜索系统可以直接促进页面访问量的提升,目前流行的搜索系统方案都是基于开源的Elasticsearch和Solr搭建。本文以食谱搜索场景为例,介绍如何利用阿里云Elasticsearch快速搭建一个搜索系统。
Hive 终于等来了 Flink
Flink 社区在集成 Hive 功能方面付出很多,目前进展也比较顺利,最近 Flink 1.10.0 RC1 版本已经发布,感兴趣的读者可以进行调研和验证功能。
机器在俯视人类,是我们的希望还是恐惧?
免费开通大数据服务:https://www.aliyun.com/product/odps 你看过“I,Robot”这部电影吗?如果你看过,是不是还记得这样一个场景:当警探史普纳进入庄严威武的USR公司时,公司大厅那个巨大的俯身凝视人类的机器人塑像?谈到 “I,Robot”观感时,有人使用了“不寒而栗”这个词,“感觉到发自脊背的寒意”。
王坚十年前的坚持,才有了今天世界顶级大数据计算平台MaxCompute
十年前,阿里云拉开国内云计算发展的序幕,而作为阿里云的创始人,王坚不仅仅为企业带来了一朵全球前三的云,还打造了一个全球顶级的EB级大数据计算平台MaxCompute。
深度预测平台RTP介绍
前言 RTP平台是阿里内部一个通用的在线预测平台,不仅支持淘系搜索、推荐、聚划算、淘金币等业务,也支持国际化相关icbu、lazada等搜索推荐业务,同时还支持着淘客,优酷、飞猪等大文娱的搜索推荐场景。
图(关系网络)数据分析及阿里应用
2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴资深技术专家钱正平为大家分享了大数据技术背景下图数据的应用前景,以及阿里巴巴在图数据的建模、查询和系统优化等方面做出的初步探索。
使用ApacheDS对Presto用户进行认证
Presto可以对接LDAP,实现用户密码认证。只需要Coordinator节点对接LDAP即可。主要步骤如下: 1.配置ApacheDS,启用LDAPS 2. 在ApacheDS中创建用户信息 3. 配置Presto Coordinator,重启生效 4. 验证配置
DCA公布第七批大数据产品能力评测结果,阿里云MaxCompute超大规模集群引关注
MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
【直播回顾】通过MaxCompute Studio实践大数据时代的DevOps
内容简介:阿里云大数据平台 MaxCompute 系统为开发者提供全托管的、PB 级的数据仓库解决方案,MaxCompute Studio 是 MaxCompute 新推出的数据集成开发环境(IDE),为开发者提供了 数据开发调试 - 命令行工具集成 - 自助作业分析诊断 的全面解决方案。
MaxCompute2.0新功能介绍
在过去的两年内,MaxCompute进行了翻天覆地的重构,从1.0版本全面升级到了2.0版本。而大家或许对于MaxCompute 2.0的一些新特性并不了解,在本文中,MaxCompute技术专家秋鹏就为大家详细介绍MaxCompute 2.0的新特性。
OpenSearch自定义分词服务
背景 OpenSearch是一个以云服务方式提供给广大开发者使用的搜索引擎平台。在搜索引擎中,分词是最基础但很重要的功能,其效果会直接影响文档的召回。分词歧义会导致引擎无法召回目标文档。例如: 乒乓球拍卖完了 ==> 乒乓球/拍卖/完了 乒乓球拍 ==> 乒乓/球拍 在上面的case中,短语“乒乓球拍”不同的上下文中分词的结果不一样。
带你玩转Logview: MaxCompute Logview参数详解和问题排查
对于Logview上的诸多参数信息,究竟应该怎么“拨开云雾”,发现问题所在呢?又如何通过Logview了解每个instance、task运行状态及资源占用情况,如何分析执行计划,分析query存在问题,找到Long-Tails task,让数据分析业务高效又省钱呢?本文中,阿里巴巴计算平台产品专家云花将为大家揭晓答案。
E-MapReduce集群启停HDFS/YARN服务
该文章意在帮助大家,在E-MapReduce环境中停止启动yarn,hdfs服务。
面向大数据与云计算调度挑战的阿里经济体核心调度系统—Fuxi 2.0全揭秘
随阿里经济体和阿里云丰富的业务需求(尤其是双十一)和磨练,伏羲的内涵不断扩大,从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度(即正文中的单机调度)等多个领域,并在每一个细分领域致力于打造超越业界主流的差异化能力。
MaxCompute 图计算用户手册(下)
示例程序 强连通分量 在有向图中,如果从任意一个顶点出发,都能通过图中的边到达图中的每一个顶点,则称之为强连通图。一张有向图的顶点数极大的强连通子图称为强连通分量。此算法示例基于 parallel Coloring algorithm。
【译】Delta Lake 0.4.0 新特性演示:使用 Python API 就地转换与处理 Delta Lake 表
本文以案例演示在最新的 Delta Lake 0.4.0 中,如何转换 Delta Lake 表,使用全新的 Python API 执行 upsert 与删除数据,用时间旅行 (time travel) 查询数据的旧版本,以及 vacuum 语句清理旧版本。
开启数据智慧,阿里云大数据团队调研高新区
随着“云计算”、“互联网”、“物联网”的快速发展,大数据(Big Data)也吸引了越来越多的人关注,成为社会热点之一。大街小巷不论是技术人员、咨询人士以及各行各业的精英达人都在探讨着“大数据”,“大数据”显然已经成为新一代“网红”。
[转载] 是时候学习真正的 spark 技术了
spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spark streaming 维护的也不积极了, 我们基于 spark 来构建大数据计算任务,重心也要...
Spark内置图像数据源初探
在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算.
云计算,能回答地球最终流浪到哪里吗?
云作为前沿科技的集大成者,除了可以提供便利的计算、存储基础设施之外,还可以提供丰富的数据智能能力,通过已知的数据来挖掘未知的深层信息。例如通过阿里云的大数据计算平台MaxCompute可以帮助科学家进行海量数据的处理,通过机器学习PAI可以轻松调用各种算法模型,来确定天体类型,甚至分析温度、空气成分等信息。
日志数据如何同步到MaxCompute
日常工作中,企业需要将通过ECS、容器、移动端、开源软件、网站服务、JS等接入的实时日志数据进行应用开发。包括对日志实时查询与分析、采集与消费、数据清洗与流计算、数据仓库对接等场景。本次分享主要介绍日志数据如何同步到MaxCompute。
Hive数据如何同步到MaxCompute之实践讲解
本次分享主要介绍 Hive数据如何迁移到MaxCompute。MMA(MaxCompute Migration Assist)是一款MaxCompute数据迁移工具,本文将为大家介绍MMA工具的功能、技术架构和实现原理,再通过实际操作MMA,演示将Hive数据迁移到MaxCompute。
Demo:基于 Flink SQL 构建流式应用
本文所有的实战演练都将在 Flink SQL CLI 上执行,全程只涉及 SQL 纯文本,无需一行 Java/Scala 代码,无需安装 IDE。
菜鸟供应链实时数仓的架构演进及应用场景
菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应链数据团队在实时数据技术架构上的演进,以及在供应链场景中典型的实时应用场景和 Flink 的实现方案。
Apache Flink China Meetup 北京站 - 计算之美,何止于快
Apache Flink China Meetup北京站来啦~
覆盖电商、推荐、ETL、风控等多场景,网易的实时计算平台做了啥?
目前网易流计算规模已经达到了一千多个任务,2 万多个 vcores 以及 80 多 T 的内存,网易流计算覆盖了绝大多数场景,包括广告、电商大屏、ETL、数据分析、推荐、风控、搜索、直播等。
maxcompute 2.0复杂数据类型之struct
1. 含义 类似于Java中的类的概念。包含很多类的属性。 2. 场景 什么样的数据,适合使用struct类型来存储呢?这里列举了几个我在开发中实际用到的场景。 2.1 多个具有相同前缀的字段 其实struct完全可以拆成多个字段。
# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】
主讲人:王道远(健身) 阿里巴巴计算平台EMR技术专家 直播时间:2018.12.13(本周四)19:00 - 20:00 内容提要:本次讲座主要涵盖Spark RDD编程入门基础,包括: Spark、RDD简介 RDD API简介 打包与spark-submit 性能分析与调优基础 ppt链接:https://yq.
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。