Jingwei Lu and Liyin Tang在Spark Summit 2017上做了主题为《Building Data Product on Spark at Airbnb》的演讲,就Airbnb的数据建设,Airbnb技术,结合streaming和batch的进程等进行了深入的分享。
https://yq.aliyun.com/download/973?spm=a2c4e.11154804.0.0.1e2f6a797EjZ5Y
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Jingwei Lu和Liyin Tang在Spark Summit 2017上的演讲《Building Data Product on Spark at Airbnb》确实是一个非常有价值的内容分享,它深入探讨了Airbnb如何利用Apache Spark构建数据产品,以及在大数据处理、分析和应用方面的技术实践。虽然我无法直接访问或提供外部链接的下载内容,但我可以基于阿里云的产品和服务,帮助你理解与该主题相关的几个关键点,以及如何在阿里云平台上实现类似的数据处理和产品建设。
使用MaxCompute进行大规模数据处理:阿里云MaxCompute(原名ODPS)是一个类似于Hadoop MapReduce的大规模数据处理平台,但提供了更高级的SQL支持和更易用的服务模型。你可以使用MaxCompute来处理Airbnb演讲中提到的批量数据处理任务,其强大的计算能力适合于PB级别的数据存储和计算需求。
实时数据流处理通过DataHub和Blink:对于结合streaming和batch的需求,阿里云提供了DataHub作为数据采集服务,可以实时收集各类数据源,并通过Blink(现升级为Flink)进行实时流式处理。这与Airbnb演讲中提到的实时数据处理流程相似,可以帮助企业快速响应业务变化,实现低延迟的数据分析和决策。
交互式分析服务Quick BI:为了更好地将数据转化为可操作的信息和洞察,阿里云的Quick BI提供了一种灵活且用户友好的方式来进行数据分析和可视化。用户可以通过拖拽操作快速创建报表和仪表板,这有助于构建像Airbnb那样的数据产品,使数据更加直观易懂。
数据开发与调度DataWorks:构建复杂的数据产品往往需要高效的数据开发和工作流管理。阿里云DataWorks(原Data IDE)提供了一个集成的开发环境,支持数据集成、开发、调度、运维等全链路功能,方便团队协作和自动化数据处理流程,类似于Airbnb在演讲中提及的技术栈中的数据工程部分。
机器学习平台PAI:对于希望在数据产品中融入机器学习和人工智能的企业,阿里云的PAI(Platform of Artificial Intelligence)提供了丰富的算法库和模型训练工具,支持从数据预处理到模型部署的端到端机器学习流程。这能够帮助企业构建智能推荐、预测分析等高级数据应用。
综上所述,阿里云提供了一系列全面而强大的产品和服务,覆盖了从数据采集、存储、处理、分析到可视化的整个链条,为企业在大数据时代构建数据产品提供了坚实的基础设施和技术支持。通过这些服务,企业可以借鉴Airbnb的经验,高效地推进自己的数据驱动战略。