开发者社区问答正文

TALK DATA TO ME: SPARKING INSIGHTS AT ELSEVIER

在SPARK SUMMIT 2017上，Emlyn Whittick Principal Software Engineer, Elsevier分享了题为《TALK DATA TO ME: SPARKING INSIGHTS AT ELSEVIER》，就如何收集高价值数据，spark2019性能优化等方面的内容做了深入的分析。

https://yq.aliyun.com/download/2066?spm=a2c4e.11154804.0.0.fd306a79CUPeR9

展开

收起

福利达人 2018-07-29 00:19:28 996 版权

阿里云 AI 助理回答

在Emlyn Whittick的分享《TALK DATA TO ME: SPARKING INSIGHTS AT ELSEVIER》中，他探讨了Elsevier如何利用Apache Spark来处理和分析大规模数据集，以提取高价值信息并驱动业务洞察。虽然我无法直接访问外部链接或特定时间点的事件详细信息，但基于Apache Spark及其在大数据处理领域的广泛应用，我可以提供一些与该主题相关的阿里云产品和技术建议，这些可能对您探索类似解决方案有帮助。

阿里云MaxCompute（原名ODPS）: MaxCompute是一个大规模数据处理平台，非常适合进行大数据的存储和分析，类似于Spark，它支持SQL查询以及MapReduce编程模型，适合处理PB级别的数据。如果您希望在云端实现类似Spark的大规模数据处理能力，MaxCompute是一个很好的选择。
阿里云EMR（Elastic MapReduce）: 阿里云EMR服务提供了托管的Apache Spark集群，用户可以快速部署和管理Spark环境，无需关心底层基础设施，专注于数据分析任务。这对于想要直接使用Spark技术栈，并结合其他Hadoop生态工具（如Hive、HDFS等）的企业来说非常方便。
性能优化: 在Spark 2019及之后版本中，性能优化是持续关注的重点。阿里云EMR不断集成最新的Spark版本，包括但不限于更高效的执行引擎改进、内存管理优化、Catalyst查询优化器的增强等，以提升作业执行效率。此外，通过调整配置参数（如executor数量、内存分配、缓存策略等）、使用动态资源分配、数据倾斜处理等方法，也可以进一步提升Spark应用的性能。
数据收集与集成: 利用阿里云DataWorks（原Data IDE）进行数据集成和ETL处理，可以帮助企业高效地从多种数据源收集数据，并准备数据供Spark分析。DataWorks还支持工作流调度、数据质量监控等功能，确保数据处理流程的稳定性和可靠性。
洞察与可视化: 分析后的数据可以通过阿里云Quick BI进行可视化展示，将复杂的数据转化为直观的图表和报告，帮助企业决策者快速理解数据背后的故事和趋势。

综上所述，阿里云提供了全面的大数据处理和分析服务，覆盖数据收集、存储、处理、分析到可视化的整个链条，能够有效支持像Elsevier这样的企业在大数据时代挖掘数据价值的需求。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

分布式计算 Spark

问答地址：

开发者社区 > 大数据 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

TALK DATA TO ME: SPARKING INSIGHTS AT ELSEVIER

相关文章