双11媒体大屏背后的数据技术与产品
【本文转载自双11媒体大屏背后的数据技术与产品】
作者:罗金鹏(藏六),阿里巴巴数据技术与产品部的高级技术专家。
本次为大家分享《双11媒体大屏背后的数据技术与产品》。阿里巴巴从2009年开始双11产品大促,从最初5千万的产品成交额,到2016年的1207亿的产品成交额,可能逍遥子自己也想不到,居然一不小心把事情搞这么大。
在2014年,也就是IPO元年的时候,我们数
使用 Docker 镜像构建批量计算 App
批量计算提供了 [App 功能](https://help.aliyun.com/document_detail/98906.html?spm=a2c4g.11186623.6.591.6ce558471gLY2q),可以使用虚拟机(VM)镜像来定制运行环境,也可以使用 Docker 镜像,本文将介绍如何使用 Docker 镜像创建 App 和提交 App 作业。
## 背景
如果您的
批量计算简介与使用-影视动漫阿里云BCS实践系列一
批量计算:
批量计算(BatchCompute)是一种适用于大规模并行批处理作业的分布式云服务。BatchCompute 可支持海量作业并发规模,系统自动完成资源管理、作业调度和数据加载,并按实际使用量计费。
阿里云批量计算怎么在控制台提交和管理作业?
阿里云批量计算(BatchCompute)是一种适用于大规模并行批处理作业的分布式云服务。
用户可以提交一个任意的计算机程序,让它在阿里云的多个 VM 实例上同时运行,然后把结果写入到指定的持久化存储位置(如阿里云对象存储 OSS 或者文件存储 NAS)。
探寻流式计算
流计算的出现拓宽了应对复杂实时计算需求能力。Storm作为流计算的利器,极大方便了应用。
GATK 软件分析流程
GATK 软件分析流程由阿里云和 Broad Institute 合作提供。Broad Institute 提供的 GATK 流程最佳实践用 工作流定义语言(WDL) 编写,通过批量计算集成的 Cromwell 工作流引擎解析执行。用户将为作业运行时实际消耗的计算和存储资源付费,不需要支付资源之外的附加费用。
Broad Institute GATK 网站和论坛为 GATK 工具和 WDL 提供了更完整的背景信息,文档和支持。
如果需要执行用 WDL 编写的通用工作流程,请参考 cromwell 工作流引擎和 WDL 支持的 APP 。
数据库必知词汇:流计算
在传统的数据处理流程中,总是先收集数据,然后将数据放到数据库中。当人们需要的时候通过数据库对数据做查询,得到答案或进行相关的处理。这样看起来虽然非常合理,但是结果却非常的紧凑,尤其是在一些实时搜索应用环境中的某些具体问题,类似于MapReduce方式的离线处理并不能很好地解决问题。这就引出了一种新的数据计算结构---流计算方式。它可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。