一图胜千言,阿里云视觉大数据智能计算实践

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在2016云栖大会杭州峰会人工智能专场上,阿里云研究员、资深总监华先胜为大家带来了阿里云眼视觉大数据智能计算的实践经验。所谓“一图胜千言”,图像所包含的数据量非常之大,如何充分利用人工智能和大数据以及云计算的平台从海量的视频与图像信息中挖掘数据的价值呢?本文就为大家分享。

以下内容根据演讲PPT以及现场分享整理而成。


引言
在大数据世界里面,视觉大数据应该是量级最大的。之前讲的天文的数据量非常大的,但其实天文的数据也是天眼的数据,说到底还是视觉的数据。

视觉智能计算并不是只做简单地进行一些图像视频的处理,而是要通过人工智能和机器学习的方法在数据中去识别、搜索和挖掘其中的价值,使得数据的价值得以体现,让用户对于数据的使用体验更好。

生活中的各种监控以及直播很普及,一个城市可能有多达60万个摄像头,所以产生的视频数据确实非常多。那么该如何处理这么多的数据呢?如何才能发现我们需要的东西呢?

大家在日常生活中比方旅游时往往会拍摄很多图片以及视频,但是之后这些数据怎么办呢?怎么看?怎么查?怎么用?往往会成为一件非常麻烦的事情,那么技术能不能把这件事情做得更好呢?

当然在其他领域也有很多的图像视觉的东西,对于这些方面,我们可以用智能来实现比如疾病诊断、灾难报告、机械故障的检测以及体育比赛的解说等等,这些确实是实实在在的理性需求,这些需求向视觉智能提出了很多的挑战,同时也带来了很多的机会。

从个体角度而言,视觉智能可以分为个体智能和整体智能。对于个体智能,数据被处理的地方可能是云上或者是终端。一般而言,云上处理的计算复杂度比较高,而终端一般处理的计算复杂度比较低一些。而整体智能则不会只关注一个单点的数据,需要看很多数据一起才能出决策,这一部分在终端上是难以完成的,除非未来端到端的通讯达到无缝的状态。整体智能的意思就是我们拿到的是一个整体的大规模的视频数据,通过这些数据的协同,以及整合到一起才能得出结论并做出决策,比如对于交通灯的控制以及其他决策等。

62a64267cf795cb20e3ac5478e0a287b74a981ae


云上视觉智能五要素
1.算法
2.平台,我们所需要处理的数据量是非常大的,所以背后必须有一个高效率的计算平台才能处理这些数据。
3.数据,数据是必须有的,现在的数据也会越来越多,而且在使用的过程中,数据也在源源不断地产生。
4.用户,用户一方面是数据和技术的使用者,另一方面也是数据的产生者。
5.商业,商业是事物的生命力,没有商业,事物的发展也不会长久。


一、视觉大数据技术和应用方向

视觉计算技术方向
在技术方向大概可以分为如下5个方向:
1.视频图像分析识别,简单而言就是“认”。
2.视觉搜索,也就是“找”。
3.视频图像生成,也就是“攒”。
4.视频大数据挖掘,也就是“挖”。

5.大规模视觉计算平台,也就是“台”,需要建立在通用平台之上的适用于视觉大数据的平台。

3f46e7d0f3b6e19e3bc44e0bb61ab77af7c4bd4a


视觉计算应用方向

在业务方向大概可以分为如下4个:
1.视频监控分析
2.图像视频搜索
3.视频数据生成
4.视觉数据挖掘

a11fdd546af471d9b08d5fa3daa69244e582154f


接下来进入案例的分享。阿里云将所有的视觉信息处理汇总到一起,产生了阿里云眼,这也是阿里云所有技术汇总的一个品牌。阿里云眼实际上也就是大数据平台上的一个智能视觉计算中心,承载云上广泛、深入的视频图像分析、识别、搜索、生成和挖掘服务。

0e58c3f4b4c6be58b6d2dab408fa73602a2817ba


二、阿里云眼应用实例

接下来从七个方面的应用进行分享。

1.城市之眼

顾名思义,城市之眼也就是城市的眼睛,什么意思呢?也就是把城市中产生的所有的视觉数据进行分析、识别以及索引,有了这些信息就可以产生很多有意思的功能,当然这些数据的分析都是由机器来完成的,所以大家不必担心数据隐私问题。

比如交通视频而言,有视频数据分析的技术在背后,可以根据视频对车辆进行检测、跟踪以及识别,基于此可以做很多很有意思的事情。

那么面对如此海量的由摄像头采集到的视频数据,该如何进行处理呢?其实在这背后必须要有大的计算平台进行支撑,而且这个平台需要适合于视觉数据处理,下图展现的就是基于ODPS或者现在称之为MaxCompute的阿里云离线计算平台,在此之上我们做了基于视觉计算的流程,使得其能够将大量的视频图像数据导入进来并进行高效处理。还有一些应用场景下,视频数据是实时的,比如像刚才提到的交通的数据。

f36268dbef8ad3ead0f543d63960973ecbc4b395

刚才提到的平台处理的是离线的数据,那么视频实时数据怎么处理呢?其实同样也会有相应的计算平台,在实时处理的时候除了数据量和系统的容错性还要有时间上的依赖性。这个平台就建立在StreamCompute这个平台上,可以来处理时间上的相关性,使得时间上流的计算变得比较方便也能够支持空间领域,多个摄像头之间的实时协同,所以在实际应用中可以既看时间点以前的数据,又能看摄像头周围的所有摄像头的数据,从而做出综合的决策。

d81722c3a8060b415716b36ae63a7ceecdf3da22

接下来分享一下城市之眼上的应用:禁左策略。禁左是因为车辆在左转的时候往往会挡住对面直行的车流,阻碍交通。所以禁左策略在一些情况下可以改善交通情况。但是给不该禁左呢?该如何去禁左呢?这些都不是简单的问题。可以通过实时的视频数据分析,给车辆的左转时间长短以及是否需要禁左,做出合理的决策。

e17478e6f3cdaef5639f3f4ad5b9d5753d548103

2.数字记忆

之前谈到的数据往往不是我们自己产生的,接下来分享的数据来源是我们自身。看一看在这里面能玩出什么名堂。

对于个人的数据,其实在阿里云的存储系统OSS上,视频数据和图像的数据都占了一半,所以数据量是非常大的。对于这部分数据该如何处理呢?有没有很好的技术、平台以及系统能够将这些数据重新唤醒。我们为什么要拍照呢,其实往往是为了留下体验和经历,希望和别人分享。若果我们能使用平台建立起容易分享和浏览、编辑的功能,这些数据就会被激活,同时还可能带来一些商业价值,比方说如何赏心悦目地加入广告。

要进行这样的处理,首先要进行打标签,我们图片的内容种类很多,这方面其实技术上比较困难。目前阿里云正在做一些配套的机制,使得我们几乎可以识别任何东西。任意的东西听起来比较悬,但是其实是有条件的,第一这个东西必须是视觉可以识别的,有一定视觉上的特征。第二是可以从互联网上找到训练数据。第三就是有这样的一套系统可以自动挖掘互联网上的数据建立模型,进行识别。

在分享时可以直接分享,也可以变化一下再分享,阿里云眼的风格画其实很好玩的,大家可以试试。

f88a5bfbd55543252606ec90b20a808d78c9cf4e

3.商品搜素

在日常生活中,我们在朋友圈往往会看到一些想买的商品,但是不知道具体是什么品牌,这时候就需要进行图片的商品搜索了。比方阿里的拍立淘就能解决这样的问题。

cc0d434929bd178532ea084ca5f750b5dc0b9c90

4.体育视频

体育视频其实是一个比较老的题目,之前曾经火过一段时间。随着近几年深度学习的兴起以及视频数据量的增加,体育视频再一次成为了热点。现在的视频分析要求具有自动性,比方说通过视频在球场上判断什么时候进球了,什么时候传球失误了等等。其应用就是在对视频打标以后可以产生视频集锦,以及对于个人数据进行分析,对于教练的训练也会有很大帮助。

b23300d6859c198a6b22fd0381723f3ebcc0d0ab

5.故障检测

故障检测其实分为机器的故障和人的故障,人的故障也就是对医学图像的处理。通过视频智能计算,之前需要上万人检测的机器故障,现在可以全部或者部分由机器检测。

d1c24d94606a8aa35a23367870fadaaf598e4b37

6.医学图像

对于医疗图像而言,则使用了基于深度学习的方法,也产生了很多的应用,比方说检测人体X光片中小于3nm的结节。


7.视频广告

讲到挖掘视频的商业价值,最好的方法就是广告。但是通常情况下,大家对于硬性的广告比较反感。其实完全可以将广告嵌入到场景中去,让用户感觉不到广告。

cfbced27f4f4d28ffb9c247f97c192ef9833094e


结语
阿里云眼利用视觉数据和视觉关联的数据进行视觉分析,进而构建媒体库、索引以及模型,之后在应用层提供各种能力。阿里云眼基于的平台都是阿里云已有的平台,依靠阿里云搭建各种技术与服务。

440d7ea2efb153dccdf7f82ceb1d6a3a229fcef9

最后回到最初讲的问题,一个成功的应用不仅仅是技术的运用,也需要算法、数据和用户以及平台。

1daf3bc3d23fef30625410ebb69ee5f9bf272636


欢迎加入MaxCompute钉钉群讨论 (官网链接):

767858daefd6375399d47bd5f941d07fe469a8ae

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6天前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
19 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
13天前
|
存储 人工智能 数据管理
|
6天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
12天前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
38 4
|
2月前
|
存储 消息中间件 分布式计算
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
|
20天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
20天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
57 2
|
2月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据生态圈体系
阿里云大数据计算服务MaxCompute(原ODPS)提供大规模数据存储与计算,支持离线批处理。针对实时计算需求,阿里云推出Flink版。此外,阿里云还提供数据存储服务如OSS、Table Store、RDS和DRDS,以及数据分析平台DataWorks、Quick BI和机器学习平台PAI,构建全面的大数据生态系统。
85 18
|
15天前
|
SQL 存储 分布式计算
阿里云 Paimon + MaxCompute 极速体验
Paimon 和 MaxCompute 的对接经历了长期优化,解决了以往性能不足的问题。通过半年紧密合作,双方团队专门提升了 Paimon 在 MaxCompute 上的读写性能。主要改进包括:采用 Arrow 接口减少数据转换开销,内置 Paimon SDK 提升启动速度,实现原生读写能力,减少中间拷贝与转换,显著降低 CPU 开销与延迟。经过双十一实战验证,Paimon 表的读写速度已接近 MaxCompute 内表,远超传统外表。欢迎体验!
|
2月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
477 7

相关产品

  • 云原生大数据计算服务 MaxCompute