开源大数据周刊-2018年08月10日第96期

2018-08-11 2182

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 开源大数据周刊-2018年08月10日第96期

资讯

阿里云E-MapReduce新版工作流管理正式上线

新版E-MapReduce工作流管理功能正式发布上线，工作流调度和编排是大数据开发的重要场景。此次升级新增作业DAG执行，作业临时查询等功能，拖拽编辑工作流节点等功能，在作业并行化缩短执行时间，提升了易用性。欢迎了解更多E-MapReduce产品详情。

2018 Gartner全球云存储魔力象限解读：阿里云跃升至挑战者云存储催热数据湖

7月外媒披露了最新的Gartner全球云存储魔力象限，全球前四依然是亚马逊AWS、微软Azure、谷歌GCP和阿里云，与去年相比最大变化是，谷歌和阿里云各自跃升了一个象限，分别跻身领导者和挑战者象限，这是中国云计算厂商首次进入Gartner云存储挑战者象限。

TensorFlow 版本 1.10.0 发布

TensorFlow 1.10 预构建二进制文件是针对 NCCL 2.2 构建的，并且在二进制安装中不再包含 NCCL。使用多个 GPU 和 NCCL 的需要将 NCCL 升级到 2.2。

技术

Flink 在饿了么的应用与实战

饿了么每天处理的数据量60TB数据，400个计算节点。文章详细介绍了Storm，SparkStreaming，Flink 3种流式计算框架在饿了么的应用优劣势。

一种堆外内存缓存策略加速数据写OSS

EMR集群中作业写数据到OSS时，需要先将数据缓存在本地，然后再一次性上传到OSS中。本文介绍了堆外内存缓存策略加速数据写OSS的方法。

斯坦福开源Weld：高效实现数据分析的端到端优化

Weld 是斯坦福大学 DAWN 实验室的一个开源项目，在 CIDR 2017 论文中描述了它的初始原型。Weld 用于对结合了数据科学库和函数的现有工作负载进行优化，而无需用户修改代码。我们在 VLDB 2018 论文中提出了 Weld 的自适应优化器，并得出了一些可喜的结果：通过在 Weld IR 上自动应用转换可以实现工作负载数量级的加速。消融研究表明，循环融合等优化具有非常大的影响。本文主要介绍如何使用 Weld 的自适应优化器进行数据分析的端到端优化。

NVIDIA研究人员采用128块Tesla V100 4小时完成40G文本训练

近日，英伟达发表了一篇大规模语言建模的论文，他们使用 128 块 GPU 在 4 小时内使得 mLSTM 可以收敛，值得注意的是，他们使用的 Amazon Reviews 数据集包含 40GB 的文本，这在以前通常需要花费数周的时间进行训练。这样的大规模语言模型能作为一种预训练模型迁移大量的语言知识，也就是说如果将其应用到机器翻译、机器阅读理解和情感分析等 NLP 任务，数据需求量和计算量都能得到大幅度的降低。

开源大数据周刊-2018年08月10日第96期

资讯

技术

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

开源大数据周刊-2018年08月10日 第96期

资讯

技术

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

开源大数据周刊-2018年08月10日第96期