开源大数据周刊-第87期

2018-05-18 1736

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

资讯

SIGIR2018高分录用——阿里妈妈公开全新CVR预估模型

近期，阿里妈妈算法团队发表了一篇题为《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》，公开了全新的CVR预估模型。该模型解决了传统CVR预估模型难以克服的样本选择偏差和训练数据过于稀疏的问题，同时开放了业界首个包含用户序贯行为的大规模数据集。

Apache Pulsar：实时数据处理中消息、计算和存储的统一

实时数据处理在各个行业和领域中已经变得越来越关键。但是在实时数据栈中，Messaging，Computing和Storage三个部分的分离，给方案的实现带来了高复杂性，低可维护性，低效率等问题。

谷歌推出Learn2Compress，可在移动端定制机器学习模型

在谷歌 I/O 大会上，谷歌公布了 ML Kit，旨在帮助移动开发者们获取机器学习能力。谷歌将于近期推出的一大 ML Kit 核心功能，正是由其研究团队开发出的 Learn2Compress 技术支持并实现的自动模型压缩服务。Learn2Compress 支持 TensorFlow Lite 中的在线深度学习模型定制功能，其可在移动设备上高效运行，帮助开发人员摆脱内存与速度优化等难题。。

技术

从Netflix的推荐系统架构中我们可以学习到什么

你是否常常被乱花渐欲迷人眼的推荐算法绕得如坠云中，觉得好像算法就是推荐系统的全部，哪怕就算不是全部，也肯定至少是个嫡生的长子。
然而，实际上工程实现才是推荐系统的骨架，如果没有很好的软件实现，算法不能落地产生效果，产品不能顺畅地服务用户，不能顺利地收集到用户的反馈，更不能让推荐系统往更好的方向进化。

图解JanusGraph内部数据存储结构

JanusGraph/Titan有如下关键设计：支持大规模图数据存储，Titan图数据库是建立在分布式集群上，数据存储容量和集群节点数量成正比；支持弹性和线性扩展，高可用，高容错；支持Gremlin图查询语言；支持利用Hadoop计算框架对图数据进行分析；支持外部索引：ElasticSearch、Solr、Lucene；支持多储存引擎：Cassandra、HBase、Berkeley DB和InMemory模式；基于Apache License 2.0

ZooKeeper真不是最终一致性的，而是顺序一致性

一种说法是ZooKeeper是最终一致性，因为由于多副本、以及保证大多数成功的Zab协议，当一个客户端进程写入一个新值，另外一个客户端进程不能保证马上就能读到这个值，但是能保证最终能读取到这个值。另外一种说法是ZooKeeper的Zab协议类似于Paxos协议，并且提供了强一致性。每当我听到这2种说法，我都想上去纠正一下，“不对，ZooKeeper是顺序一致性(Sequential consistency)”。

负载均衡的原理

本文所描述的，其实就是著名开源软件LVS的原理，上面讲的两种负载均衡的方式，就是LVS的NAT和DR。LVS是章文嵩博士在1998年5月成立的自由软件项目，现在已经是Linux内核的一部分。想想那时候我还在不亦乐乎地折腾个人网页，学会安装和使用Linux 没多久 , 服务器端开发也仅限于ASP，像LVS这种负载均衡的概念压根就没有听说过。

开源大数据周刊-第87期

资讯

技术

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书