kafka官方文档学习笔记1--基本概念了解
什么是kafka?
kafka是一个分布式流式平台,能够通过订阅-发布模式在应用之间实时传递数据流,同时保证可靠性和容错性;简单理解,就是一个分布式消息队列。
kafka涉及的3基本概念
kafka服务:既可以以单点方式运行,也可以通过多个节点组成集群运行;
record:kafka中的每条记录称.
基于 MaxCompute 的极速的基因测序分析
转载自yizhuo
基因、测序、分析
基因,生命的基本因素,是人类和其他生物的基础遗传物质。人有 23 对染色体,总共记录了大约 3Gb 个碱基(这里的 b 是 base,即碱基,可不是 bit,参考这里),每个位置上的碱基可能是 ATCG 中的一个。简单理解起来,就是有了这 3Gb 长的字
大促背后的流量利器|手淘push升级 比你更懂你
手淘 App 的 Push 消息大部分时候是作为一个活动通知的通道,对重要活动进行通投引流。那么,经过升级改造后的整体效果如何?在这次的 618 大促中又发挥了什么样的作用?我们在背后有那些发现和思考?本文会逐一介绍。
如何在E-MapReduce上使用storm
Storm 使用指南
集群创建
目前E-MapReduce已经支持了apache社区的1.0.1版本的storm。用户可以通过选择E-MapReduce 最新的镜像版本EMR-2.0.0(以及后续的以上版本),通过在控制台软件列表中勾选storm软件进行安装,选择完毕后即可登录到master节点
开源大数据周刊-第80期
奇虎360正式开源其高性能KV存储平台Zeppelin,Zeppelin 是奇虎 360 开源的一个高性能,高可用的分布式 Key-Value 存储平台,它以高性能、大集群为目标,并希望能在 Zeppelin 的基础上,不仅能够提供 KV 的访问,还可以通过简单的一层转换满足更复杂的协议需求。
实时计算在「阿里影业实时报表业务」技术解读
阿里影业实时报表开始做法也是按照传统型报表做法一样,直接从阿里云rds写sql查询,随着数据量越来越大,这种做法已经没有办法满足业务扩张,带来的问题响应时间变慢,吞吐量低,我们急需要一种技术方案能满足未来2-3年随着影院增加,数据增长,而报表功能还能很好的满足客户需求技术方案。