资讯
新版E-MapReduce工作流管理功能正式发布上线,工作流调度和编排是大数据开发的重要场景。此次升级新增作业DAG执行,作业临时查询等功能,拖拽编辑工作流节点等功能,在作业并行化缩短执行时间,提升了易用性。欢迎了解更多E-MapReduce产品详情。
7月外媒披露了最新的Gartner全球云存储魔力象限,全球前四依然是亚马逊AWS、微软Azure、谷歌GCP和阿里云,与去年相比最大变化是,谷歌和阿里云各自跃升了一个象限,分别跻身领导者和挑战者象限,这是中国云计算厂商首次进入Gartner云存储挑战者象限。
TensorFlow 1.10 预构建二进制文件是针对 NCCL 2.2 构建的,并且在二进制安装中不再包含 NCCL。使用多个 GPU 和 NCCL 的需要将 NCCL 升级到 2.2。
技术
饿了么每天处理的数据量60TB数据,400个计算节点。文章详细介绍了Storm,SparkStreaming,Flink 3种流式计算框架在饿了么的应用优劣势。
EMR集群中作业写数据到OSS时,需要先将数据缓存在本地,然后再一次性上传到OSS中。本文介绍了堆外内存缓存策略加速数据写OSS的方法。
Weld 是斯坦福大学 DAWN 实验室的一个开源项目,在 CIDR 2017 论文中描述了它的初始原型。Weld 用于对结合了数据科学库和函数的现有工作负载进行优化,而无需用户修改代码。我们在 VLDB 2018 论文中提出了 Weld 的自适应优化器,并得出了一些可喜的结果:通过在 Weld IR 上自动应用转换可以实现工作负载数量级的加速。消融研究表明,循环融合等优化具有非常大的影响。本文主要介绍如何使用 Weld 的自适应优化器进行数据分析的端到端优化。
近日,英伟达发表了一篇大规模语言建模的论文,他们使用 128 块 GPU 在 4 小时内使得 mLSTM 可以收敛,值得注意的是,他们使用的 Amazon Reviews 数据集包含 40GB 的文本,这在以前通常需要花费数周的时间进行训练。这样的大规模语言模型能作为一种预训练模型迁移大量的语言知识,也就是说如果将其应用到机器翻译、机器阅读理解和情感分析等 NLP 任务,数据需求量和计算量都能得到大幅度的降低。