如何获取阿里巴巴的大数据能力?

简介: 今年年初,阿里云宣布开放阿里巴巴十年的大数据能力,发布全球首个一站式大数据平台“数加”,该平台承载了阿里云“普惠大数据”的理想,即让全球任何一个企业、个人都能用上大数据。6月8日,借中欧EMBA走进阿里之际,阿里云大数据运营专家邓彬对数加平台整体做了更为详细的介绍。

平台定位


图一 数加平台的定位

面对不同的用户,数加平台定位也各不相同。对于开发者而言,它是一站式数据采集、加工和应用的平台;面向企业用户,数加平台提供了影视、金融、电商、交通、通用等行业解决方案;面向服务商,数加平台提供的更多是行业内先进的技术引擎、开发平台,丰富大数据应用经验。

产品概览

数加的产品大致分为三层,在座的各位会比较关心最上层的数据应用,刚才大家体验的智能语音交互就是其中之一,后面还会给大家介绍其他几个智能工具。除了成熟的数据应用之外,中间还有两个开发平台,一个是算法开发的平台、一个是数据开发的平台。算法开发平台提供了业内常用的知名算法,并且以一套界面化的流程进行管理操作。数据开发平台拥有在线查询、ETL加工、定时调度、数据传输等多项功能,满足日常业务数据的生产需要。

在最底层,是阿里云强大的数据计算引擎。值得注意的是,这里所有的计算能力都是经历过阿里巴巴双十一活动的洗礼,每一年随着业务的巨大增速,进而拥有质的飞跃,他的稳定性、安全性、计算能力每年都会参加考试,然后提升,这也是区别于市场上的开源产品一个特点。


图二 数加平台产品概览

数加平台和其他服务差异化的地方在于,其不仅提供了数据计算和存储能力,还提供了大数据整体端到端的应用闭环,他不仅能帮用户采集数据,还能帮大家如何用数据。


图三 数加平台差异化的核心能力

解决方案

数加平台不仅为各行业提供相应的解决方案,例如人脸识别、语音识别、舆情分析,以及台风预警等。同时在数加平台上还提供了一些轻量级,适合个人使用的产品,下面将一一进行介绍。

特色产品

1、数据可视化

数据可视化有一种呈现方式,叫数据大屏。从下图可以看到,每年双十一的时候,阿里巴巴都会展示一个数据媒体大屏,其中包括实时数据的的演示和逻辑分析。其背后包括大量实时数据的计算、处理和多维的分析。

如果单看上层的产品,随着大屏的推出,许多媒体、政府、或者即将上市的企业倾向于将核心数据通过物理大屏进行呈现。针对这种情况,数据可视化产品目前推出了活动实时数据大屏、运营动态数据大屏、电商综合数据大屏、设备监控预警大屏四款模板。其使用也十分简单,单人可在十分钟内完成数据大屏的创建。首先选中一个模板、在模板之上可以自主调整可视化组件,包括组件背景的配置;同时其数据源也不仅仅是数据库,也支持从本地的Csv文件中上传数据。


图四 2015年天猫双十一数据大屏

不同场景下的用户对大屏的需求不尽相同。例如实时动态分析数据架构,主要适用于电商/O2O实时订单、气象/海洋实时动向、交通实时车流等场景;数据综合分析架构,主要适用于政府宏观经济展示、企业用户画像分析等场景;IT运维日志分析架构,主要适用于企业设备监控、危险预警、资源管理等运维场景。

2、公共趋势分析

这是一款最近上线的SaaS化的产品,其初衷是为倾听客户抱怨,提升集团各产品的质量反馈,自动告警,触发工单流转;目前可以实现对(自)媒体内容智能分类,智能打标,智能判断正负面情绪,分析传播路径等功能。


图五 公共事件传播效果分析

上图是对顺丰快递员被打案例的分析,经过追踪分析发现:后续有四层传播,整个传播量达到一亿以上,转发量达到五万余次,同时可以分析出每次转发背后人的感情指数的趋势。

从产品界面上来看,该产品十分易用,使用者只需输入所监督的关键词,然后该产品可以根据给定的关键词查到市面上所有的相关事件,然后针对这些事情进行情感分析。对于公众事件的传播,也可以通过可视化图形界面查看。

如何使用数加平台? 

对于企业而言,如何让使用数加平台很关键。下面将以Finger为例进行详细讲解。

Finger

Finger应用包括视频、文章帖和电商导购三个模块。Finger截止目前已经发展两年有余,积累了很多数据,在应用方面面临了一些问题,大致包括:移动APP的数据采集通过第三方软件,数据明细拿不到;前后端数据分散、需要整合;数据应用只有第三方提供的报表,应用单一。

Finger最终想要达到的目的是:1、将数据源统一整理起来。2、建立数据池,包括结构化数据和非结构化数据。3、在多种业务场景下应用数据,包括用户画像、个性化推荐、性能分析。


图六 对应数加解决方案

那对应数加平台的解决方案就是:前端通过“移动数据分析(MAN-SDK)”采集数据、后端通过日志API采集,历史数据存在RDS,三份数据统一汇聚到MaxCompute进行大规模数据计算。然后调用推荐引擎的算法来实现个性化推荐,在应用过程中,算法也是跑在MaxCompute上。

互动体验

数加产品体验馆:https://data.aliyun.com/experience

推荐引擎、BI报表、数据开发、机器学习、以及人工智能算法服务都在其中。


图七 数加平台产品列表及体验馆

 



图八 印刷文字识别


图九 人脸识别

答疑 

有人问到数加平台和御膳房的异同,我的理解是,相同点:首先两者都是同一套计算能力提供出去。不同点:1、从业务特征来看,御膳房侧重点是淘系电商的业务和场景;数加更多面向的是个人或企业的开发者、行业解决方案(包括电商)以及服务商生态。两者面向的对象不太一样。2、从产品功能来看,由于终端客户存在不一样需求,提供的产品也会有差异。

关于分享者: 邓彬,阿里云大数据运营专家

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
6月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
|
6月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
大数据之路:阿里巴巴大数据实践——离线数据开发
|
5月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
5月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
|
存储 分布式计算 大数据
大数据之路:阿里巴巴大数据实践——大数据领域建模综述
数据建模解决数据冗余、资源浪费、一致性缺失及开发低效等核心问题,通过分层设计提升性能10~100倍,优化存储与计算成本,保障数据质量并提升开发效率。相比关系数据库,数据仓库采用维度建模与列式存储,支持高效分析。阿里巴巴采用Kimball模型与分层架构,实现OLAP场景下的高性能计算与实时离线一体化。
|
6月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
1787 1
|
机器学习/深度学习 搜索推荐 算法
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
|
存储 搜索推荐 数据建模
阿里巴巴大数据实践之数据建模:构建企业级数据湖
阿里巴巴通过构建高效的数据湖和实施先进的数据建模策略,实现了数据驱动的业务增长。这些实践不仅提升了内部运营效率,也为客户提供了更好的服务体验。随着数据量的不断增长和技术的不断创新,阿里巴巴将持续优化其数据建模方法,以适应未来的变化和发展。