如何获取阿里巴巴的大数据能力?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 今年年初,阿里云宣布开放阿里巴巴十年的大数据能力,发布全球首个一站式大数据平台“数加”,该平台承载了阿里云“普惠大数据”的理想,即让全球任何一个企业、个人都能用上大数据。6月8日,借中欧EMBA走进阿里之际,阿里云大数据运营专家邓彬对数加平台整体做了更为详细的介绍。

平台定位


图一 数加平台的定位

面对不同的用户,数加平台定位也各不相同。对于开发者而言,它是一站式数据采集、加工和应用的平台;面向企业用户,数加平台提供了影视、金融、电商、交通、通用等行业解决方案;面向服务商,数加平台提供的更多是行业内先进的技术引擎、开发平台,丰富大数据应用经验。

产品概览

数加的产品大致分为三层,在座的各位会比较关心最上层的数据应用,刚才大家体验的智能语音交互就是其中之一,后面还会给大家介绍其他几个智能工具。除了成熟的数据应用之外,中间还有两个开发平台,一个是算法开发的平台、一个是数据开发的平台。算法开发平台提供了业内常用的知名算法,并且以一套界面化的流程进行管理操作。数据开发平台拥有在线查询、ETL加工、定时调度、数据传输等多项功能,满足日常业务数据的生产需要。

在最底层,是阿里云强大的数据计算引擎。值得注意的是,这里所有的计算能力都是经历过阿里巴巴双十一活动的洗礼,每一年随着业务的巨大增速,进而拥有质的飞跃,他的稳定性、安全性、计算能力每年都会参加考试,然后提升,这也是区别于市场上的开源产品一个特点。


图二 数加平台产品概览

数加平台和其他服务差异化的地方在于,其不仅提供了数据计算和存储能力,还提供了大数据整体端到端的应用闭环,他不仅能帮用户采集数据,还能帮大家如何用数据。


图三 数加平台差异化的核心能力

解决方案

数加平台不仅为各行业提供相应的解决方案,例如人脸识别、语音识别、舆情分析,以及台风预警等。同时在数加平台上还提供了一些轻量级,适合个人使用的产品,下面将一一进行介绍。

特色产品

1、数据可视化

数据可视化有一种呈现方式,叫数据大屏。从下图可以看到,每年双十一的时候,阿里巴巴都会展示一个数据媒体大屏,其中包括实时数据的的演示和逻辑分析。其背后包括大量实时数据的计算、处理和多维的分析。

如果单看上层的产品,随着大屏的推出,许多媒体、政府、或者即将上市的企业倾向于将核心数据通过物理大屏进行呈现。针对这种情况,数据可视化产品目前推出了活动实时数据大屏、运营动态数据大屏、电商综合数据大屏、设备监控预警大屏四款模板。其使用也十分简单,单人可在十分钟内完成数据大屏的创建。首先选中一个模板、在模板之上可以自主调整可视化组件,包括组件背景的配置;同时其数据源也不仅仅是数据库,也支持从本地的Csv文件中上传数据。


图四 2015年天猫双十一数据大屏

不同场景下的用户对大屏的需求不尽相同。例如实时动态分析数据架构,主要适用于电商/O2O实时订单、气象/海洋实时动向、交通实时车流等场景;数据综合分析架构,主要适用于政府宏观经济展示、企业用户画像分析等场景;IT运维日志分析架构,主要适用于企业设备监控、危险预警、资源管理等运维场景。

2、公共趋势分析

这是一款最近上线的SaaS化的产品,其初衷是为倾听客户抱怨,提升集团各产品的质量反馈,自动告警,触发工单流转;目前可以实现对(自)媒体内容智能分类,智能打标,智能判断正负面情绪,分析传播路径等功能。


图五 公共事件传播效果分析

上图是对顺丰快递员被打案例的分析,经过追踪分析发现:后续有四层传播,整个传播量达到一亿以上,转发量达到五万余次,同时可以分析出每次转发背后人的感情指数的趋势。

从产品界面上来看,该产品十分易用,使用者只需输入所监督的关键词,然后该产品可以根据给定的关键词查到市面上所有的相关事件,然后针对这些事情进行情感分析。对于公众事件的传播,也可以通过可视化图形界面查看。

如何使用数加平台? 

对于企业而言,如何让使用数加平台很关键。下面将以Finger为例进行详细讲解。

Finger

Finger应用包括视频、文章帖和电商导购三个模块。Finger截止目前已经发展两年有余,积累了很多数据,在应用方面面临了一些问题,大致包括:移动APP的数据采集通过第三方软件,数据明细拿不到;前后端数据分散、需要整合;数据应用只有第三方提供的报表,应用单一。

Finger最终想要达到的目的是:1、将数据源统一整理起来。2、建立数据池,包括结构化数据和非结构化数据。3、在多种业务场景下应用数据,包括用户画像、个性化推荐、性能分析。


图六 对应数加解决方案

那对应数加平台的解决方案就是:前端通过“移动数据分析(MAN-SDK)”采集数据、后端通过日志API采集,历史数据存在RDS,三份数据统一汇聚到MaxCompute进行大规模数据计算。然后调用推荐引擎的算法来实现个性化推荐,在应用过程中,算法也是跑在MaxCompute上。

互动体验

数加产品体验馆:https://data.aliyun.com/experience

推荐引擎、BI报表、数据开发、机器学习、以及人工智能算法服务都在其中。


图七 数加平台产品列表及体验馆

 



图八 印刷文字识别


图九 人脸识别

答疑 

有人问到数加平台和御膳房的异同,我的理解是,相同点:首先两者都是同一套计算能力提供出去。不同点:1、从业务特征来看,御膳房侧重点是淘系电商的业务和场景;数加更多面向的是个人或企业的开发者、行业解决方案(包括电商)以及服务商生态。两者面向的对象不太一样。2、从产品功能来看,由于终端客户存在不一样需求,提供的产品也会有差异。

关于分享者: 邓彬,阿里云大数据运营专家

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
208 1
|
6月前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute是由阿里巴巴集团创建的
【7月更文挑战第1天】
169 58
|
5月前
|
机器学习/深度学习 搜索推荐 算法
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
|
6月前
|
存储 搜索推荐 数据建模
阿里巴巴大数据实践之数据建模:构建企业级数据湖
阿里巴巴通过构建高效的数据湖和实施先进的数据建模策略,实现了数据驱动的业务增长。这些实践不仅提升了内部运营效率,也为客户提供了更好的服务体验。随着数据量的不断增长和技术的不断创新,阿里巴巴将持续优化其数据建模方法,以适应未来的变化和发展。
|
6月前
|
存储 分布式计算 Hadoop
阿里巴巴飞天大数据架构体系与Hadoop生态系统的深度融合:构建高效、可扩展的数据处理平台
技术持续创新:随着新技术的不断涌现和应用场景的复杂化,阿里巴巴将继续投入研发力量推动技术创新和升级换代。 生态系统更加完善:Hadoop生态系统将继续扩展和完善,为用户提供更多元化、更灵活的数据处理工具和服务。
|
8月前
|
分布式计算 算法 搜索推荐
阿里巴巴内部:全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 大数据:Spark、Hadoop
|
分布式计算 算法 搜索推荐
阿里巴巴内部:全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 大数据:Spark、Hadoop
|
大数据
《重磅发布!300页阿里巴巴大数据核心技术公开,速度收藏》电子版地址
重磅发布!阿里巴巴大数据团队历时一年,集合25+专家协力打造《像阿里巴巴一样玩转大数据》系列电子书,近300页实战精华。
161 0
《重磅发布!300页阿里巴巴大数据核心技术公开,速度收藏》电子版地址
|
人工智能 大数据
《阿里巴巴大数据及AI实战》电子版地址
阿里云服务器购买价格,阿里云所有产品价格表分享
166 0
《阿里巴巴大数据及AI实战》电子版地址