解读|百分点凭啥能推出「中国首个行业AI决策系统」
早餐君印象里,百分点上一次重大产品发布还是两年前的企业级大数据操作系统(BD-OS)。随后就一直比较低调,直到两周前,百分点又传出个大消息,高调发布了中国首个行业AI决策系统产品Deep Matrix。
使用EMR-Flume同步Kafka数据到HDFS
Flume是一个分布式、可靠和高效的数据汇聚系统,其source、channel和sink的结构设计,不仅实现了数据生产者与消费者的解耦,还提供了数据缓冲的功能。一个比较通用的使用场景是使用Flume将Kafka的数据按照时间分区同步至HDFS,进行实时的流式分析或离线统计。
海量数据处理之蓄水池抽样算法
一、问题由来
这个题目的由来是在《编程珠玑》里遇到的,故记录一下。还可以这么说,”如何从二进制文件中等概率取整数?”或者”在不知道文件总行数的情况下,如何从文件中随机的抽取一行?”这个题目说的有点不清楚实际上是:一个二进制文件中有好多好多整数,你要随机取出一个。