不要犹豫 了解这些即可玩转阿里云ODPS

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
数据安全中心,免费版
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本文讲的是不要犹豫 了解这些即可玩转阿里云ODPS,从7月8日,阿里云ODPS正式开放商用至今已有一周有余,网上关于ODPS商用的话题热度非常之高,除了好事儿的不怕热闹的过来瞧瞧之外,对于那些真正憋了多年,决心将大数据事业进行到底的企业用户,他们“圣战”的时刻终于到了。

本文讲的是不要犹豫 了解这些即可玩转阿里云ODPS,【IT168专稿】从7月8日,阿里云ODPS正式开放商用至今已有一周有余,网上关于ODPS商用的话题热度非常之高,除了好事儿的不怕热闹的过来瞧瞧之外,对于那些真正憋了多年,决心将大数据事业进行到底的企业用户,他们“圣战”的时刻终于到了。

  关于ODPS平台的诸多优势,以及对产业的影响,已经有太多篇幅的报道了,本文不想过多的做重复报道,重点是从用户角度出发,发掘他们对ODPS的需求,进而帮助用户更好的应用ODPS。

  通过对这些用户调查了解到,他们更关心ODPS是否安全、咋用、好不好用、需要作何准备、价格是否公道等等。也看出了这些用户的可爱之处,同时也看到他们对ODPS的期望(或许是市面上这些所谓的大数据平台对他们来说不怎么靠谱)。

不要犹豫 了解这些就可以玩转ODPS
▲阿里云ODPS商用大数据平台

  开门见山ODPS是什么?能干什么?

  要想了解ODPS,不妨先看一下阿里云的整体架构:最底层是Linux+PC Server,上层软件是飞天,飞天是阿里云09年开始开发的一款分布式系统软件,主要提供分布式存储和分布式计算的调度、编程框架。开发语言是C++, 2013年该系统在生产环境支持调度5000台机器的集群。

  ODPS是在飞天之上提供的一套服务,功能包括SQL,基于java的Mapreduce编程框架,图计算编程模型,一系列机器学习算法的实现等等。所有的功能是以RESTful API的形式对外提供,所以从系统边界上说,这层API隔离了ODPS平台和用户的系统,和hadoop的区别也很明显。ODPS设计之初就是为了对外开放,做基于互联网的多租户的公共数据处理服务,所以安全性在ODPS的设计和实现中具有最高的优先级。

  简单来说,ODPS(Open Data Processing Service)是一项Web服务,大家不用花大钱建数据中心,就能分析海量数据。看到这个介绍,大概就知道ODPS是干嘛的了。也可以和自建数据中心做个区分。

  按照阿里云测试,100PB的数据任务可在六个小时内跑完,这个数据量相当于1亿部高清电影,够厉害了吧。

  使用ODPS安全性靠谱吗?

  有这个疑问的用户,说明对云计算本身还有一些顾虑,也说明企业对云计算有尝试的需求。的确,数据是企业的核心资产,这个已经被广泛认识到了,以至于企业采用非常多的手段对数据进行保护。企业应该认识到,自己的数据保存到服务器中,肯定会面临机房安全、黑客攻击、内部流程和人员安全等多项挑战,做到这些防护就能100%的安全了吗?这里要打个问号。

  安全问题是老生常谈,但是不谈就打消不了用户的疑虑,这里就做个说明。可以说,现在对云计算安全的顾虑,就跟当年对公共电网的顾虑一样。现在谁不用公共电网?银行刚刚诞生之初,老百姓觉得把钱放到自己身边最安全,现在不都放到银行了?道理很简单,安全性是一个理念,需要大家慢慢适应,但是走向云端是必然的道路。

  结合阿里云ODPS,从具体的安全措施来讲,ODPS是国内首家通过了CSA-STAR和ISO27001两项国际云安全认证的公司,在各个环节都采纳了国际上最先进的数据安全管理标准。在技术上,ODPS采用了多项技术保证用户存储在阿里云的数据不丢失、不泄露、不越权访问;从管理上,阿里云内部对于ODPS的运维和运营人员的操作有严格的监控和审计,确保内部人员不会接触到用户的数据。

  ODPS通过API提供服务,包括数据上传、下载、计算,所有API请求都是经过认证的,所有API请求都可以走https加密。从平台设计和技术实现角度说,ODPS充分考虑了数据安全性,ODPS团队对于平台的优先级定义是数据安全性大于可用性大于规模的。

  空口无凭,举例为证。阿里巴巴作为ODPS最大的用户,已经率先做了安全性实践。1)阿里的业务数据都将运行在ODPS上,外部用户与阿里集团享受相同的高安全等级。2)除了企业用户外,目前也在帮助政府客户合作上云。这些大企业和政府客户,比如一些银行、飞利浦、美的、中国气象局等,对数据安全的考虑非常严格,他们最后决定上云,也是对阿里云的数据安全性经过了全方位的评估。

  用ODPS应该做哪些准备工作呢?

  认清ODPS的产品价值以后,你是否已经鼓足勇气决定借力ODPS大干一场?别慌,你先做一些准备工作。

  一方面,使用ODPS也有一定的技术门槛。比如至少要懂得处理数据的基础技能,比如SQL语言。或者是一个程序员,懂得通过编写Java程序或者编写脚本。

  另外,还要具备数据敏感度以及对业务的理解。目前参加天池大赛的学生,他们通过对数据有更好的理解,进行设计更好的算法,取得更好的处理结果。

  ODPS如何收费?针对中小企业方面有没有优惠政策?

  成本是企业发展中最重要的因素,作为用户会问,使用ODPS的解决方案,我的成本会降低多少?阿里云的回答是,比传统方式成本至少节约一半。ODPS是按使用后付费的产品,用户的数据存储和计算一定有波峰波谷,企业不必为了应对峰值而采购额外的机器,而仅仅需要为了使用的资源而买单。更为关键的是服务的方式,极大地降低了技术门槛。企业不用为了Hadoop人才难觅而发愁。大企业财大气粗,不差钱,只要能确保解决问题一切都OK。但是中小企业没这么阔气,精打细算还是必须滴。

  针对中小企业ODPS有木有优惠政策?答案是肯定的。阿里巴巴就是通过不断的扶持中小企业,甚至是小微企业才得以建立了庞大的商业帝国,这些小企业是阿里的根基,当然不会置之不理。

  阿里云ODPS产品经理汤子楠说,希望通过ODPS让更多的中小企业感受和利用大数据的价值,除了产品本身外,后续还会推出一系列的服务,比如帮助用户设计数据模型,引导用户更合理更低成本的使用ODPS,比如对用户进行ODPS和大数据方面的培训,比如提供基于ODPS的可视化BI分析工具等等。这些服务在初期会以免费或低价的方式提供给用户,最大化的降低用户使用大数据的成本和门槛。有了阿里官方的说法,中小企业主大可放心了吧。

  目前ODPS有哪些成功案例值得借鉴?

  生于阿里,阿里云自然将阿里业务作为服务对象,甚至阿里巴巴的诸多业务都已经成为了ODPS的客户。

  ODPS之前一直在阿里内部试用。第一个"小白鼠"是阿里小贷。现在,超过36万人从阿里小贷借款,最小贷款额1块钱,并实现3分钟申请、1秒放款、0人工干预。要做到这一点,阿里小贷每天得处理30PB数据,包括店铺等级、收藏、评价等800亿个信息项,运算100多个数据模型,甚至得测评小企业主对假设情景的掩饰和撒谎程度。另外,阿里小贷每笔贷款成本3毛钱。

  华大基因,2003年国内抗SARS研究的主力军。去年,华大在ODPS上试了下基因测序,耗时不到传统方式的十分之一。

  公共领域的数据挖掘,如今,每盒药品上都有一张电子身份证,从生产、流通、储存、配送、销售到使用,全过程的数据都跑在ODPS上,一旦发现问题药品,监管部门可以立即采取措施。

  眼下,阿里巴巴各项数据业务都在用ODPS,比如淘宝在算你最中意哪个淘女郎,天猫在算你什么时候想吃车厘子,菜鸟在算卡车走哪条路可能会被雷劈,支付宝在算你何时会从屌丝变成高富帅。

  ODPS强大的生态圈计划 企业如何参与并获利?

  ODPS是一个强大的数据计算引擎,结果的输出需要各种计算模型的支撑,计算模型一方面ODPS平台会提供,但是也需要打造生态圈,借助生态圈的力量不断的完善ODPS。

  ODPS作为开放的商用平台,也欢迎更多的生态圈伙伴参与进来,这些伙伴包括四个方面:1、服务和应用供应商,提供商业智能和数据应用。2、数据的生产,可以是企业也可以是个人。3、数据的加工,他们可以是咨询公司、行业专家。4、数据消费,包括广告、客户满意度改进、模式创新、精准推荐等。

  ODPS产品经理汤子楠提到一点,参与到生态圈中,大家共同获益,既可以为生态圈提供资源,也可以从中获益。

  最后,借用阿里云事业部总裁王文彬的话:“阿里云ODPS是一个系统工程,工程不可能是完美的,ODPS还在不断的发展中,希望大家多一些耐心。”作为用户,可以说目前ODPS已经开创了在线处理大数据商用的先河,值得道贺,也值得期待。用户在使用过程中有更多的疑问欢迎提出(微信 搜索景保玉,关注公共账号 小新有话说,微博 @景保玉)这也是为ODPS的完善做出一份贡献。


原文发布时间为:2014-07-16
本文作者:景保玉
本文来自云栖社区合作伙伴IT168,了解相关信息可以关注IT168。
原文标题:不要犹豫 了解这些即可玩转阿里云ODPS
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
1天前
|
SQL DataWorks 关系型数据库
阿里云 DataWorks 正式支持 SelectDB & Apache Doris 数据源,实现 MySQL 整库实时同步
阿里云数据库 SelectDB 版是阿里云与飞轮科技联合基于 Apache Doris 内核打造的现代化数据仓库,支持大规模实时数据上的极速查询分析。通过实时、统一、弹性、开放的核心能力,能够为企业提供高性价比、简单易用、安全稳定、低成本的实时大数据分析支持。SelectDB 具备世界领先的实时分析能力,能够实现秒级的数据实时导入与同步,在宽表、复杂多表关联、高并发点查等不同场景下,提供超越一众国际知名的同类产品的优秀性能,多次登顶 ClickBench 全球数据库分析性能排行榜。
|
3天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
2月前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
173 12
|
2月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
261 17
|
2月前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
78 7
|
2月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
2月前
|
存储 分布式计算 DataWorks
关于阿里云DataWorks的6个问题记录
该文章记录了关于阿里云DataWorks使用的六个常见问题及解答,帮助用户更好地理解和操作DataWorks平台。
153 0
关于阿里云DataWorks的6个问题记录
|
2月前
|
存储 SQL 分布式计算
Java连接阿里云MaxCompute例
要使用Java连接阿里云MaxCompute数据库,首先需在项目中添加MaxCompute JDBC驱动依赖,推荐通过Maven管理。避免在代码中直接写入AccessKey,应使用环境变量或配置文件安全存储。示例代码展示了如何注册驱动、建立连接及执行SQL查询。建议使用RAM用户提升安全性,并根据需要配置时区和公网访问权限。具体步骤和注意事项请参考阿里云官方文档。
|
2月前
|
机器学习/深度学习 DataWorks 数据挖掘
基于阿里云Hologres和DataWorks数据集成的方案
基于阿里云Hologres和DataWorks数据集成的方案
62 7