资讯
Apache Kafka 2.0.0 已正式发布,这是一个主要版本,新增了许多重要的新功能。此外还包括许多重要的 bug 修复和改进,其中还包括一些严重的错误修复。
2018中国人工智能大会在深圳举行。会上,国际人工智能联合会(IJCAI)主席、AAAI/ACM/IEEE Fellow、香港科技大学教授杨强发表了题为《AI面临的挑战和迁移学习所带来的机遇》的演讲,谈到了AI发展遇到的大数据的困境以及解决办法。
Tableau公司近日推出Tableau 2018.2版本更新,该更新的扩展API能够让用户直接拖放第三方应用功能到仪表板。此外,在新推出的Tableau服务管理器下,用户可直接在浏览器中管理Tableau Server。
技术
为了检测几近重复的相似图片,我们使用了一套基于 Spark 和 TensorFlow 的数据流处理系统——NearDup。这套系统的核心由一个使用 Spark 实现的批量化 LSH(locality-sensitive hashing,局部敏感哈希)搜索器和一个基于 TensorFlow 的分类器构成。这个数据流处理系统每天能够比较上亿个分析对象,并渐进式地完成各个图像类别的信息更新。在本文中,我们将讲解如何使用这项技术更好地理解海量图片内容,从而使得我们产品前端界面的推荐内容和搜索结果具有更高的信息准确性、更大的数据密度。
虽然在大数据应用层面不尽完美,但Yarn在支持长期运行服务方面具有很大优势,这是Yarn社区耗时一年一直在努力做的事情,本文主要介绍该服务的特点和具体使用方法。
本文介绍了360商业数据部使用Spark的实践经验,并基于应用中遇到的问题给出了对应的优化建议。
本文从编程模型、任务调度、时间机制、Kafka 动态分区的感知、容错及处理语义、背压等几个方面对比 Spark Stream 与 Flink,希望对有实时处理需求业务的企业端用户在框架选型有所启发。