阿里云发布ODPS 可分析PB级海量数据

简介:  本文讲的是阿里云发布ODPS 可分析PB级海量数据8日,阿里云计算发布核武级大数据产品——ODPS。通过ODPS在线服务,小型公司花几百元即可分析海量数据。ODPS可在6小时内处理100PB数据,相当于1亿部高清电影。此前,全球掌握这种能力的公司屈指可数,如Google、亚马逊等。
+关注继续查看

 本文讲的是阿里云发布ODPS 可分析PB级海量数据8日,阿里云计算发布核武级大数据产品——ODPS。通过ODPS在线服务,小型公司花几百元即可分析海量数据。ODPS可在6小时内处理100PB数据,相当于1亿部高清电影。此前,全球掌握这种能力的公司屈指可数,如Google、亚马逊等。

  五年间,阿里云的工程师们写下250万行代码,不断打磨ODPS。该团队在一封公开信中描述:“把数据海洋里的水灌进ODPS,设定好一套参数,拧开水龙头,出来的就是鲜榨果汁!”对比工业时代,ODPS相当于大数据时代的流水生产线,水龙头里流出来的“果汁”,随原始数据和算法的改变而千变万化。

  公开信中表示:工业革命后的200多年里,人类对物理资源的利用登峰造极,对数据资源的利用却仍处于起步阶段。Google、Facebook、阿里巴巴等互联网公司先行一步,触碰到了大数据的魅力。然而,人类拥有的绝大部分数据还无法产生价值。

  采用传统方案处理大规模数据,一般得耗资数千万自建数据中心,请专业技术人员维护运作。一旦数据总量超过100TB,技术挑战会非常大。Hadoop开源运动降低了这一成本,不过自建一个像样的Hadoop集群,仍然需要上百万的起步资金。专业的Hadoop人才则更加稀缺。

  相比而言,使用ODPS的成本和门槛则低得多。ODPS采取按量收费的模式,目前定价0.3元/GB,即开即用,一个月内免费。根据大部分公司的数据量来测算,一般每月只需花费数百元。

  在对外商用之前,ODPS一直是阿里巴巴内部的秘密武器。阿里小贷最先将ODPS应用到商业领域。如今,超过36万人从阿里小贷借款,最小贷款额为1元,并实现3分钟申请、1秒放款、0人工干预。要做到这一点,阿里小贷每天得处理30PB数据,包括店铺等级、收藏、评价等800亿个信息项,运算100多个数据模型,甚至得测评小企业主对假设情景的掩饰和撒谎程度。阿里小贷每笔贷款成本3毛钱,不到普通银行的1/1000。

  据悉,淘宝、支付宝等阿里巴巴最核心的数据业务,都运行在ODPS平台。比如阿里妈妈广告的核心算法,点击预测模型的训练等。ODPS商用,意味着阿里云将这种大数据处理能力对外开放,此举将大幅降低社会创新成本。

  在公共领域,ODPS也具备广泛应用的潜力:华大基因利用ODPS进行基因测序,耗时不到传统方式的十分之一,未来一旦爆发生物危机,可以为人类赢得宝贵的破译时间;药监部门利用ODPS,全程监管药品流向,解决假药问题。“我们期待未来每一桶油、每一道菜的数据都跑在ODPS上,食品安全问题需要通过创新的方式来解决。”

  目前,全球提供类似服务的仅有Google和亚马逊,国内尚无同类产品可供比较。阿里云方面表示,ODPS将比Google BigQuery更强大,不仅支持更丰富的SQL语法,还将提供MapReduce编程模型和机器学习建模能力,可以服务更多应用场景。

原文发布时间为:2014-07-08

本文作者: 景保玉

本文来自云栖社区合作伙伴IT168,了解相关信息可以关注IT168

原文标题:阿里云发布ODPS 可分析PB级海量数据

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3天前
|
存储 缓存 数据挖掘
AtomData结合阿里云分布式存储实现海量数据分析(三)
AtomData结合阿里云分布式存储实现海量数据分析(三)
12 0
|
3天前
|
存储 数据挖掘 大数据
AtomData结合阿里云分布式存储实现海量数据分析(二)
AtomData结合阿里云分布式存储实现海量数据分析(二)
12 0
|
3天前
|
存储 数据可视化 数据挖掘
AtomData结合阿里云分布式存储实现海量数据分析(一)
AtomData结合阿里云分布式存储实现海量数据分析(一)
19 0
|
3天前
|
存储 SQL 监控
阿里云“玩转云上 StarRocks3.0 湖仓分析”训练营火热报名中,开启数据分析新范式
阿里云 EMR OLAP 团队与 StarRocks 社区联合出品,玩转云上 StarRocks3.0 湖仓分析训练营,围绕 StarRocks3.0 系列解读、EMR Serverless StarRocks 存算分离功能与应用场景介绍,开启数据分析新范式!
44 0
|
16天前
|
存储 自然语言处理 数据挖掘
阿里云邀您参加《大模型时代下的数据存储与分析》沙龙
阿里云将联合Doris和Zilliz举办《大模型时代下的数据存储与分析》技术沙龙。带你了解数据智能存储分析与向量特征提取Serverless架构实践、场景搭建与动手实践,现场签到即送限量好礼!
阿里云邀您参加《大模型时代下的数据存储与分析》沙龙
|
18天前
|
存储 分布式计算 OLAP
深度干货|谈谈阿里云AnalyticDB Spark如何构建低成本数据湖分析
本文将分享AnalyticDB MySQL Spark助力构建低成本数据湖分析的最佳实践。
|
1月前
|
弹性计算 数据挖掘 Java
Sentieon性价比高75%,倚天ECS在基因测序场景的实践
基因组测序分析是生物信息学中常见的应用场景,具有重要意义。近期的新平台创新带来了大量数据,同时带来的是数据分析方面的挑战。基因组和外显子数据分析场景中,CPU在分析效率、资源可获得性以及弹性部署等多方便具备均衡的表现,相对于FPGA及GPU方案更具优势。在分析大量基因组数据时,倚天CPU展现了出色的性能和经济性。本文通过在阿里云E-HPC平台上使用Sentieon进行基因组测序分析实验,结果显示倚天实例相对于同规格的7代x86实例可实现高达75%的性价比优势,是客户降本增效的最佳选择。
|
1月前
|
机器学习/深度学习 自然语言处理 数据可视化
阿里云 ModelScope模块分析测评
阿里云 ModelScope 是一种用于模型评估和性能分析的开源工具。它旨在帮助用户更好地了解和评估不同的机器学习模型,并提供可视化和统计分析来支持决策制定。
|
1月前
|
SQL 存储 自然语言处理
玩转阿里云PostgreSQL,通过pg_jieba对豆瓣影评进行热评分析
在当今社交媒体的时代,人们通过各种平台分享自己的生活、观点和情感。然而,对于平台管理员和品牌经营者来说,了解用户的情感和意见变得至关重要。为了帮助他们更好地了解用户的情感倾向,我们可以使用PostgreSQL中的pg_jieba插件对这些发帖进行分词和情感分析,来构建一个社交媒体情感分析系统,系统将根据用户的发帖内容,自动判断其情感倾向是积极、消极还是中性,并将结果存储在数据库中。 本文通过针对kaggle数据集中的豆瓣影评的中文评论数据,通过阿里云的PostgreSQL中的pg_jieba插件进行分词(可自定义多个词典,并且切换自定义词典进行分词),基于分词的结果进行统计分析。
|
2月前
|
Cloud Native 架构师 关系型数据库
天弘基金引入阿里云瑶池数据库,实现百亿级数据处理和分析
天弘基金采用AnalyticDB云原生实时数据仓库后,实现了此前架构无法完成的百亿级数据实时处理与分析,逐步从数据支持业务升级到数据驱动业务
推荐文章
更多