AI|揭秘阿里视觉计算团队:用机器替代人眼看透照片视频的秘密

简介: 如果说人工智能=数据+算法,那么大数据与云计算则可以称得上是人工智能的底层架构了。根据IEEE 院士、阿里云计算机视觉科学家华先胜博士介绍,目前,阿里云针对人工智能的发力点集中在计算机视觉、智能语音交互、和数据智能应用这三方面。

用机器替代人眼看透照片视频的秘密

cc250eefca075a125446a3516b657b5598549866

2016年初,华先胜加入阿里云并创立视觉计算团队,负责云上的视频图像智能分析、识别、搜索、生成和挖掘服务。2017年的春节前夕,阿里巴巴公布了2016年第三季度财报,其中阿里云计算业务本季营收为17.64亿元,同比增长115%,付费用户数量达到76.5万,同比增长100%——这已经是阿里云营收连续第7个季度保持100%以上的增幅了。2016年10月,阿里云计算项目“城市大脑”在杭州上线测试,通过接入交通监控视频等数据收集,对整个城市进行全局实时分析,自动调配公共资源,最终将进化成为能够治理城市的超级人工智能。

如果说人工智能=数据+算法,那么大数据与云计算则可以称得上是人工智能的底层架构了。根据IEEE 院士、阿里云计算机视觉科学家华先胜博士介绍,目前,阿里云针对人工智能的发力点集中在计算机视觉、智能语音交互、和数据智能应用这三方面。而随着近年来计算机视觉领域在深度学习方面陆续取得突破性成果,计算机视觉成了阿里云的首要落地技术之一。

d203ba0fc96678b60c0478ba7f43eda26c2a47dc

(IEEE 院士、阿里云计算机视觉科学家华先胜博士)

云计算、计算机视觉……啥?

云计算的概念就像人工智能一样广泛而模糊,简单来说,云计算平台的服务模式分为三类:SaaS(CRM、Email、在线游戏等)、PaaS(数据库,Web服务器、开发工具等)、IaaS(网络带宽、服务器、储存空间等)用户不再需要将资源下载到电脑里,只需要接入网络便可享受网络服务。

计算机视觉则属于人工智能学科的一部分,可以理解为用机器替代人眼,其中涵盖了图像与视频的分析、目标的检测与分割、人脸识别、物体识别、目标跟踪、视觉搜索等,背后需要强力的视觉算法支持。近年来,由于深度学习的兴起,以及计算机视觉技术利用深度学习,在人脸识别、物品识别等方面取得不少成就,近来声名鹊起的谷歌首席科学家李飞飞的研究领域之一便是计算机视觉,全球最大的图像识别数据库ImageNet也是由她参与创建。

d579b12e60f742ff0ed05e59ecb3e6d9e284858e

“城市大脑”的诞生

2015年,曾于微软任职14年的华先胜博士加入阿里巴巴,负责电商图片搜索引擎优化,最终的落地产品为应用在淘宝、天猫APP上的“拍立淘”——用户用手机拍摄物品照片后,便可以搜索相同或者相似的商品。2016年初,华先胜加入阿里云并创立视觉计算团队,负责云上的视频图像智能分析、识别、搜索、生成和挖掘服务。据华博士介绍,类似“拍立淘”、人脸识别“虚拟试妆”的电商相关项目由集团内部团队负责,阿里云主要还是负责对外业务,比如交通、安全、广告、工业等方面的应用。

2016年10月,阿里云计算的重要项目“城市大脑”在杭州上线测试,相似的技术也被阿里云应用在广州。“城市大脑”项目主要技术落点在于:

  1. 大规模视频分析处理。依靠阿里云的计算平台+视频分析特点,构建大规模视频分析平台,对整个城市交通状况有全面清晰透彻的了解。
  2. 城市图搜。将电商的图片搜索技术延伸到城市场景里来,完成城市索引。比如公安部门可接入系统,进行特定车辆类型、车牌的跟踪搜索。
  3. 交通监测。除了基本的城市观察(车流、人流)外,还可以检测车辆转向、速度、属性,同时监测公开场景下的特殊事件监测识别:车牌追踪监控、交通事故、违章停车、横穿马路等。
  4. 交通模型建立与交通优化。挖掘大量数据间的关系,发现规律,发现相互制约性。通过对交通、车牌、车型等数据的实时理解分析,判别交通流量,优化调整信号灯等。既可以周一到周日一次性离线优化,又可以在遇到交通事故、车流拥堵时进行实时调控,管控红绿灯。
370ef4f3c25cad33c1887922bebeda486a7ad1b4

一方面,并且由于城市监控摄像头数量众多,产生的视频数据量巨大,计算消耗大、吞吐量大,城市大脑需要在可控成本下提供大规模计算能力,并且保证计算效率——计算平台需要“吃得进去”,并且“消化的了”。据华博士所言,阿里的“飞天”云计算平台是一套超级计算机系统,拥有百万CPU合数,60万块硬盘支持。

另一方面,由于视频处理具有时空相关性:时间相关性,每一帧图像都依赖于先前的相关图像;空间相关性,交通场景下当前视频需要跟其他视频合在一起作决策。因此在视频处理时需要针对时空相关性优化算法研究,提升计算效率。

数据红利与算法优势逐渐减少,深耕行业,建立优秀商业模式

华博士认为,现在很多人工智能公司是以算法起家的,但是算法间的差异可能会越来越小,再加之基于深度学习的方法、各类开源算法的出现,内行高手之间算法差异不会有太大。比如ImageNet的图像识别大赛中,优胜者最后的数据差距都在小数点以后,虽然是真实场景下还是有差异,但是磨练起来将会逐渐减少,甚至包括数据差异也会越来越少,数据先发红利也会逐渐减少。

而除了算法以外,一个优秀的商业应用场景对于人工智能公司来说也同等重要。一个好的AI商业应用需要兼顾算法、数据、用户、平台、商业模式这五大方面。这五点虽然同维,但不同商业应用有不同侧重。对于人工智能公司来说,需要认真思考有没有好的商业应用、有没有真正深入行业产生价值、是否具备这五个基本要素是否都具备。

目前,人工智能已经在金融的人脸识别方面开始应用,安防、交通、工业也已经开始初步应用。设备端AI工具、智能陪伴、机器人、智能冰箱等,包括运用AI优化的搜索引擎,虽然听起来并不像“阿法狗”那样高级,但人工智能已经渗入到我们生活方方面面。

954f9fc3da36fd4f886fe45a39418e54675226ce

结语:AI时代的“基础设施”

阿里云的智能语音识别、图像搜索、人脸识别等相关的热弄智能技术都是从阿里内部的技术团队孵化而来,原本服务于电商体系,后续转移到阿里云计算平台体系上,配合搭建云计算生态,开放API,寻求合作伙伴。这一点与苹果、安卓搭建好操作系统后,各类APP陆续入驻类似。

阿里云的强大计算能力是无数中小企业无法企及的,但通过开放云计算平台,阿里云的用户获得了人工智能服务的能力,阿里巴巴也继续占据入口,试图成为AI时代的“基础设施”。


来源:智东西 作者:Lina
目录
相关文章
|
21天前
|
存储 人工智能 算法
【AI系统】计算与调度
本文探讨了计算与调度的概念,特别是在神经网络和图像处理中的应用。通过分离算法定义和计算组织,Halide 等工具能够显著提升图像处理程序的性能,同时保持代码的简洁性和可维护性。文章详细介绍了计算与调度的基本概念、调度树的构建与约束,以及如何通过调度变换优化计算性能。此外,还讨论了自动调优方法在大规模调度空间中的应用,展示了如何通过探索和预测找到最优的调度方案。
38 0
|
6天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
62 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
6天前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
15天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
75 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
14天前
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
64 7
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
|
14天前
|
机器学习/深度学习 存储 人工智能
转载:【AI系统】计算之比特位宽
本文详细介绍了深度学习中模型量化操作及其重要性,重点探讨了比特位宽的概念,包括整数和浮点数的表示方法。文章还分析了不同数据类型(如FP32、FP16、BF16、FP8等)在AI模型中的应用,特别是FP8数据类型在提升计算性能和降低内存占用方面的优势。最后,文章讨论了降低比特位宽对AI芯片性能的影响,强调了在不同应用场景中选择合适数据类型的重要性。
转载:【AI系统】计算之比特位宽
|
17天前
|
机器学习/深度学习 人工智能 前端开发
【AI系统】计算图的控制流实现
计算图作为有向无环图(DAG),能够抽象神经网络模型,但在编程中遇到控制流语句(如if、else、while、for)时,如何表示成为难题。引入控制流后,开发者可构建更复杂的模型结构,但部署含控制流的模型至不支持Python的设备上较为困难。目前,PyTorch仅支持Python控制流,而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣,动态图易于调试,静态图利于优化。
42 5
【AI系统】计算图的控制流实现
|
17天前
|
机器学习/深度学习 人工智能 算法
【AI系统】计算图挑战与未来
当前主流AI框架采用计算图抽象神经网络计算,以张量和算子为核心元素,有效表达模型计算逻辑。计算图不仅简化数据流动,支持内存优化和算子调度,还促进了自动微分功能的实现,区分静态图和动态图两种形式。未来,计算图将在图神经网络、大数据融合、推理部署及科学计算等领域持续演进,适应更复杂的计算需求。
50 5
【AI系统】计算图挑战与未来
|
17天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图基本介绍
近年来,AI框架如TensorFlow和PyTorch通过计算图描述神经网络,推动了AI技术的发展。计算图不仅抽象了神经网络的计算表达,还支持了模型算子的高效执行、梯度计算及参数训练。随着模型复杂度增加,如MOE、GAN、Attention Transformer等,AI框架需具备快速分析模型结构的能力,以优化训练效率。计算图与自动微分紧密结合,实现了从前向计算到反向传播的全流程自动化。
40 4
【AI系统】计算图基本介绍