AWS针对S3中数据推出Amazon Athena查询服务

简介:

新服务为使用标准SQL分析Amazon S3中的数据提供了方便

凭借Amazon Athena,Atlassian、纳斯达克和新闻集团以及其他很多客户仅需几秒钟就可获得查询结果

2016年11月30日亚马逊(NASDAQ:AMZN)旗下公司Amazon Web Services, Inc.(AWS)宣布,推出无服务器查询服务Amazon Athena,该服务为使用标准SQL在Amazon S3(Amazon Simple Storage Service)中直接分析数据提供了方便。客户仅需在AWS管理控制台(AWS Management Console)中点击几下,就可将Amazon Athena指向其存储在Amazon S3中的数据,用标准SQL进行查询,并在几秒钟内获得查询结果。有了Amazon Athena,就无需管理和微调集群,也无需设置或管理基础设施了,而且客户只需为已发生的查询付费。Amazon Athena可自动扩展,执行并行查询,因此可以快速获得查询结果,甚至在面对大型数据集和进行复杂查询时也一样。

由于Amazon Redshift、Amazon EMR等AWS数据分析服务的出现,各种规模的公司都能够进行PB级数据分析了。凭借Amazon Redshift,客户可以对海量结构化数据进行复杂查询,并实现超快速的查询性能。就非结构化数据而言,凭借Amazon EMR,客户能够横跨可动态扩展的集群,使用Apache Spark、Presto、Hive、Pig等流行的分布式框架,快速、经济地处理和分析大量数据。尽管这些服务可扩展性足够高、威力足够大,可以应对大型、复杂的大数据应用,但是很多客户还是希望无需启动、配置和管理Hadoop集群或数据仓库,就能够非常快速地查询存储在Amazon S3中的数据(例如Web日志、点击数据流和原始的事件文件)。现在,凭借Amazon Athena,分析存储在Amazon S3中的数据就如同编写SQL查询一样简便。Amazon Athena运用全面支持标准SQL的Presto框架,并支持各种标准数据格式,包括CSV、JSON、ORC和Parquet。此外,Amazon Athena不仅非常适合快速、专门的查询,实现了与Amazon QuickSight的集成以方便实现虚拟化,而且能够处理复杂数据分析,包括大型连接、窗口功能和阵列。Amazon Athena利用多个可用区(Availability Zones)中的计算资源执行查询,并将Amazon S3用作底层数据存储系统,由于数据冗余地存储在多个地点和每个地点的多个设备中,所以该服务的可用性和耐用性很高。

AWS公司数据库、数据分析和人工智能事业部副总裁Raju Gulabani表示:“过去几年来,AWS开发出了全套大数据服务,客户可用这些服务完成从流数据、PB级数据仓库到Spark和Hadoop作业的实时分析,而且所有分析都具备快速、可扩展和经济实惠的特点。Amazon S3是几十万客户的主要数据存储系统,保存了几十亿至几万亿个数据对象。客户经常问我们,能否让任何人都不用担心服务器和集群的分区或管理问题,就能够方便地查询其存储在Amazon S3中的数据。现在客户们可以做到这一点了。使用Amazon Athena是零管理的,任何人,只要会编写SQL查询,就能分析其存储在Amazon S3中的数据。Amazon QuickSight和Amazon Athena实现了紧密集成,因此客户甚至无需编写SQL查询,就可虚拟化其Amazon Athena查询结果。

新闻集团首席技术官Paul Cheesbrough表示:“我们是AWS的长期客户,用Amazon Redshift、Amazon EMR等服务支持我们全公司的数据分析。我们是Amazon Athena的早期客户,该服务快速、简便易用和经济实惠的特点已得到证实。我们的工程师和分析师团队使用该服务后给出了积极的反馈信息,他们尤其赞赏的是,通过Amazon Athena能够直接查询Amazon S3,我们一想到使用这项服务的前景,就倍感振奋。”

LiveIntent是一家平台提供商,为针对电子邮件渠道的市场营销和广告提供平台,每个月通过1300个顶级发布商发送的电子邮件,帮助逾1100个品牌商向1.45亿人提供市场营销和广告信息。LiveIntent公司工程部执行副总裁Eric Raab表示:“LiveIntent平台每天收集处理数亿个事件的信息。我们不断要求自己改进和扩展平台,以提供更快速、更经济的数据访问,这样的数据访问又会转化成更深入、更快速地洞察我们客户的能力。在我们评估的解决方案中,Amazon Athena速度快、价格优,因此我们决定马上采用该服务。我们很喜欢Amazon Athena的零管理特色,以及无需加载就能够在Amazon S3中直接查询多种格式数据的能力。”

DataXu公司帮助营销人员利用数据了解市场营销投资怎样才能转化成可盈利的客户关系。该公司工程副总裁Yekesa Kosuru表示:“我们每秒钟处理超过300万个报价申请,因此每天总共接收3PB数据。即使经过压缩和删减,每天仍会产生超过180TB的日志数据。我们一听说Amazon Athena,就马上采用了该服务,我们喜欢Amazon Athena的简便性、高速度和按查询量付费的定价模式。Amazon Athena使我们能够查询存储在Amazon S3上的全部数据集,而无需管理基础设施。因为没有任何东西需要管理,只需按查询量付费,所以我们正在全公司范围内积极部署Amazon Athena。”

Gunosy是日本领先的新闻收集应用提供商。该公司数据科学家Yosuke Abe表示:“Amazon Athena令我们印象深刻,甚至在预览阶段,Amazon Athena的速度就比我们一直在使用的系统快,即使该系统直接在Amazon S3中查询数据,因此我们尽快开始了Amazon Athena的使用。我们正在积极向AWS迁移工作负载,以将Amazon Athena置于我们分析平台的核心位置。”

Inrix是一家领先的实时交通信息提供商,为企业、公共机构和媒体服务。该公司工程经理Harsh Shah表示:“我们公司每天接收数TB道路网络和运动数据,并用数百条Amazon EMR数据管道处理这些数据。我们将Amazon S3用作未处理、处理中和已处理数据集的存储库。我们的数据科学家需要切割和分析这些数据,为针对道路网络进行预测性分析建立数学模型。我们的数据工程师需要从已处理数据向处理中数据逐级深入,以发现和消除数据质量问题。我们抓住了试用Amazon Athena的机会,喜欢上了该服务的高速度、易用性和灵活性。凭借Amazon Athena,我们的任何开发人员都能够利用SQL,查询我们存储在Amazon S3上的所有数据,而且不用担心基础设施问题或是否了解大数据处理系统。通过Amazon Athena,我们已经迅速将Amazon S3变成了我们的数据湖。”

Japan Taxi是一款交通应用,每月有200万活跃用户。Japan Taxi公司首席技术官Kazuhiri Iwata表示:“能够将数据放入Amazon S3中,并通过Amazon Athena服务、利用标准SQL查询这些数据,这种体验非常好。有了Amazon Athena,我们就不必加载数据了,因为通过该服务可以立即查询数据。现在我们的任何开发人员都能够以低成本和高分辨率查询数据,我们能够让每一位有需求的人简便地访问我们的数据。由于Amazon Athena采用开源格式,所以我们还能够针对相同的数据使用Amazon EMR等其他解决方案,因而很容易实现互操作性。此外,由于Amazon Athena不需要管理,所以我们能够立即开始使用该服务。”

mParticle公司帮助移动应用开发人员收集数据并理解数据的含义。该公司首席技术官Michael Katz表示:“我们公司收集和处理大量数据。我们希望所有客户都能够用SQL等简便的语言处理原始数据。我们一听说Amazon Athena就立即采用了该服务,因为能够利用标准SQL快速分析大量数据对我们很有吸引力。通过Amazon Athena,我们能够立即启动工作,按查询量付费,并快速完成查询。我们喜欢这种ANSI-SQL兼容性,以及既能够查询文本也能够查询列式存储格式数据的能力。”

纳斯达克采用的技术支撑着50个国家逾70个市场,以及全球1/10的证券交易量。纳斯达克公司首席设计师Nate Sammons表示:“以创新愿景和变革传统为基础,我们总是寻找在我们所有市场上提高效率、增强业务洞察力的新途径。由于数据对我们的业务成功至关重要,所以对于能够分析我们存储在Amazon Redshift、Amazon S3以及其他存储系统中的数据的新工具,我们始终抱有浓厚兴趣。我们希望扩展我们的Amazon Redshift数据仓库,建立一个安全、经济的长期数据存储系统。由于ANSI-SQL兼容性和高速性能,所以我们选择了Amazon S3作为存储系统,选择了Presto作为查询和分析系统的组成部分。由于使用Amazon Athena就不再需要集群,而且通过该服务,我们所有分析师都能够快速查询Amazon S3中的数据,所以我们预计Amazon Athena将帮助我们进一步实现上述想法。”

JW Player是全世界流行的视频播放器之一,JW Player公司也是领先的数字和移动视频解决方案提供商。JW Player在超过200万个网站上运行,面向OTT、手机、平板电脑、台式电脑等各种设备,月观看人数超过130亿次。JW Player公司工程副总裁Rick Okin表示:“我们使用组合平台支撑JW数据分析状态显示板(JW Analytics Dashboard),通过横跨大型数据集的数据分析衡量内容的效果。我们每天定期接收超过40亿个事件的信息,并不断寻找能够简化大型数据集处理、同时降低成本和复杂性的解决方案。Amazon Athena为我们提供了一种简便易用、快速、经济且无需管理的解决方案。令我们欣喜的是,我们无需担心集群或数据仓库问题,只需将数据放在S3中、使用Apache Parquet等开源格式以实现与其余数据栈的互操作性、运行SQL查询即可。”

Tableau公司帮助人们查看和理解数据。该公司首席开发官Andrew Beers表示:“我们的使命是,尽可能让更多人获得数据,这样人们就可以根据所获信息采取行动,改变世界。我们与AWS合作很长时间了,我们的解决方案与Amazon Redshift、Amazon EMR和Amazon RDS实现了原生集成。宣布支持Amazon Athena也令我们倍感振奋。凭借Tableau解决方案和Amazon Athena,客户可以经济地以互动方式虚拟化其存储在Amazon S3中的所有数据,而且无需管理基础设施。”

客户可以通过AWS管理控制台使用Amazon Athena。Amazon Athena已开始在美国东部地区(弗吉尼亚州北部)和美国西部地区(俄勒冈州)提供,并将在未来几个月扩展至美国其余地区。



本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。

目录
相关文章
|
7月前
|
存储 安全 关系型数据库
AWS介绍
AWS介绍
177 0
|
7月前
|
存储 API 云计算
AWS基础
AWS基础
115 2
|
7月前
|
存储 人工智能 大数据
云计算平台:AWS、Azure和Google Cloud的比较与选择
在当今数字化时代,云计算平台成为了企业和个人的首选。本文将重点比较三大主流云计算平台:AWS、Azure和Google Cloud,从性能、功能、可用性以及定价等方面进行综合评估,帮助读者更好地选择适合自己需求的云计算平台。
|
4月前
|
存储 Linux 网络安全
【Azure 存储服务】Azure文件能实现的功能及业务场景的系列问题
【Azure 存储服务】Azure文件能实现的功能及业务场景的系列问题
|
7月前
|
Python
Amazon SageMaker
基于 Amazon SageMaker 的低成本 CI/CD 系统最佳实践包括以下几个方面:
60 1
|
7月前
|
存储 运维 前端开发
Amazon S3
Amazon S3
129 0
|
存储 数据库 开发工具
「技术选型」AWS 和 AZURE的全面比较
「技术选型」AWS 和 AZURE的全面比较
|
存储 大数据 测试技术
3.2.1存储服务 亚马逊 AWS|学习笔记
快速学习3.2.1存储服务 亚马逊 AWS
3.2.1存储服务 亚马逊 AWS|学习笔记
|
存储 弹性计算 缓存
3.1.1计算服务亚马逊 AWS|学习笔记(一)
快速学习3.1.1计算服务亚马逊 AWS
3.1.1计算服务亚马逊 AWS|学习笔记(一)
|
存储 网络协议 安全
3.1.1计算服务亚马逊 AWS|学习笔记(二)
快速学习3.1.1计算服务亚马逊 AWS
3.1.1计算服务亚马逊 AWS|学习笔记(二)