AI|揭秘阿里视觉计算团队:用机器替代人眼看透照片视频的秘密

简介: 如果说人工智能=数据+算法,那么大数据与云计算则可以称得上是人工智能的底层架构了。根据IEEE 院士、阿里云计算机视觉科学家华先胜博士介绍,目前,阿里云针对人工智能的发力点集中在计算机视觉、智能语音交互、和数据智能应用这三方面。

用机器替代人眼看透照片视频的秘密

cc250eefca075a125446a3516b657b5598549866

2016年初,华先胜加入阿里云并创立视觉计算团队,负责云上的视频图像智能分析、识别、搜索、生成和挖掘服务。2017年的春节前夕,阿里巴巴公布了2016年第三季度财报,其中阿里云计算业务本季营收为17.64亿元,同比增长115%,付费用户数量达到76.5万,同比增长100%——这已经是阿里云营收连续第7个季度保持100%以上的增幅了。2016年10月,阿里云计算项目“城市大脑”在杭州上线测试,通过接入交通监控视频等数据收集,对整个城市进行全局实时分析,自动调配公共资源,最终将进化成为能够治理城市的超级人工智能。

如果说人工智能=数据+算法,那么大数据与云计算则可以称得上是人工智能的底层架构了。根据IEEE 院士、阿里云计算机视觉科学家华先胜博士介绍,目前,阿里云针对人工智能的发力点集中在计算机视觉、智能语音交互、和数据智能应用这三方面。而随着近年来计算机视觉领域在深度学习方面陆续取得突破性成果,计算机视觉成了阿里云的首要落地技术之一。

d203ba0fc96678b60c0478ba7f43eda26c2a47dc

(IEEE 院士、阿里云计算机视觉科学家华先胜博士)

云计算、计算机视觉……啥?

云计算的概念就像人工智能一样广泛而模糊,简单来说,云计算平台的服务模式分为三类:SaaS(CRM、Email、在线游戏等)、PaaS(数据库,Web服务器、开发工具等)、IaaS(网络带宽、服务器、储存空间等)用户不再需要将资源下载到电脑里,只需要接入网络便可享受网络服务。

计算机视觉则属于人工智能学科的一部分,可以理解为用机器替代人眼,其中涵盖了图像与视频的分析、目标的检测与分割、人脸识别、物体识别、目标跟踪、视觉搜索等,背后需要强力的视觉算法支持。近年来,由于深度学习的兴起,以及计算机视觉技术利用深度学习,在人脸识别、物品识别等方面取得不少成就,近来声名鹊起的谷歌首席科学家李飞飞的研究领域之一便是计算机视觉,全球最大的图像识别数据库ImageNet也是由她参与创建。

d579b12e60f742ff0ed05e59ecb3e6d9e284858e

“城市大脑”的诞生

2015年,曾于微软任职14年的华先胜博士加入阿里巴巴,负责电商图片搜索引擎优化,最终的落地产品为应用在淘宝、天猫APP上的“拍立淘”——用户用手机拍摄物品照片后,便可以搜索相同或者相似的商品。2016年初,华先胜加入阿里云并创立视觉计算团队,负责云上的视频图像智能分析、识别、搜索、生成和挖掘服务。据华博士介绍,类似“拍立淘”、人脸识别“虚拟试妆”的电商相关项目由集团内部团队负责,阿里云主要还是负责对外业务,比如交通、安全、广告、工业等方面的应用。

2016年10月,阿里云计算的重要项目“城市大脑”在杭州上线测试,相似的技术也被阿里云应用在广州。“城市大脑”项目主要技术落点在于:

  1. 大规模视频分析处理。依靠阿里云的计算平台+视频分析特点,构建大规模视频分析平台,对整个城市交通状况有全面清晰透彻的了解。
  2. 城市图搜。将电商的图片搜索技术延伸到城市场景里来,完成城市索引。比如公安部门可接入系统,进行特定车辆类型、车牌的跟踪搜索。
  3. 交通监测。除了基本的城市观察(车流、人流)外,还可以检测车辆转向、速度、属性,同时监测公开场景下的特殊事件监测识别:车牌追踪监控、交通事故、违章停车、横穿马路等。
  4. 交通模型建立与交通优化。挖掘大量数据间的关系,发现规律,发现相互制约性。通过对交通、车牌、车型等数据的实时理解分析,判别交通流量,优化调整信号灯等。既可以周一到周日一次性离线优化,又可以在遇到交通事故、车流拥堵时进行实时调控,管控红绿灯。
370ef4f3c25cad33c1887922bebeda486a7ad1b4

一方面,并且由于城市监控摄像头数量众多,产生的视频数据量巨大,计算消耗大、吞吐量大,城市大脑需要在可控成本下提供大规模计算能力,并且保证计算效率——计算平台需要“吃得进去”,并且“消化的了”。据华博士所言,阿里的“飞天”云计算平台是一套超级计算机系统,拥有百万CPU合数,60万块硬盘支持。

另一方面,由于视频处理具有时空相关性:时间相关性,每一帧图像都依赖于先前的相关图像;空间相关性,交通场景下当前视频需要跟其他视频合在一起作决策。因此在视频处理时需要针对时空相关性优化算法研究,提升计算效率。

数据红利与算法优势逐渐减少,深耕行业,建立优秀商业模式

华博士认为,现在很多人工智能公司是以算法起家的,但是算法间的差异可能会越来越小,再加之基于深度学习的方法、各类开源算法的出现,内行高手之间算法差异不会有太大。比如ImageNet的图像识别大赛中,优胜者最后的数据差距都在小数点以后,虽然是真实场景下还是有差异,但是磨练起来将会逐渐减少,甚至包括数据差异也会越来越少,数据先发红利也会逐渐减少。

而除了算法以外,一个优秀的商业应用场景对于人工智能公司来说也同等重要。一个好的AI商业应用需要兼顾算法、数据、用户、平台、商业模式这五大方面。这五点虽然同维,但不同商业应用有不同侧重。对于人工智能公司来说,需要认真思考有没有好的商业应用、有没有真正深入行业产生价值、是否具备这五个基本要素是否都具备。

目前,人工智能已经在金融的人脸识别方面开始应用,安防、交通、工业也已经开始初步应用。设备端AI工具、智能陪伴、机器人、智能冰箱等,包括运用AI优化的搜索引擎,虽然听起来并不像“阿法狗”那样高级,但人工智能已经渗入到我们生活方方面面。

954f9fc3da36fd4f886fe45a39418e54675226ce

结语:AI时代的“基础设施”

阿里云的智能语音识别、图像搜索、人脸识别等相关的热弄智能技术都是从阿里内部的技术团队孵化而来,原本服务于电商体系,后续转移到阿里云计算平台体系上,配合搭建云计算生态,开放API,寻求合作伙伴。这一点与苹果、安卓搭建好操作系统后,各类APP陆续入驻类似。

阿里云的强大计算能力是无数中小企业无法企及的,但通过开放云计算平台,阿里云的用户获得了人工智能服务的能力,阿里巴巴也继续占据入口,试图成为AI时代的“基础设施”。


来源:智东西 作者:Lina
目录
相关文章
|
23天前
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第17天】北京大学计算机学院张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可能导致误诊和医疗事故,引起学术界和工业界的广泛关注。研究强调了医疗AI系统安全性评估的重要性。
38 1
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
AI与艺术创作:机器的艺术天赋
【10月更文挑战第31天】本文探讨了AI在艺术创作中的应用及其独特“艺术天赋”。从绘画、音乐、文学到设计,AI通过计算机视觉、自然语言处理和生成对抗网络等技术,逐渐展现出强大的创作能力。尽管面临原创性、审美标准和法律伦理等挑战,AI艺术创作仍为艺术界带来了新的视角和灵感,未来有望与人类艺术家共同推动艺术的创新与发展。
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
22 3
|
25天前
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第16天】北京大学张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可使攻击者通过特定数据样本误导AI诊断,引发误诊风险。此发现引起广泛关注,强调了医疗AI安全评估的重要性。
50 4
|
1月前
|
消息中间件 人工智能 Cloud Native
|
1月前
|
机器学习/深度学习 人工智能 算法
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
NVIDIA TAO Toolkit 5.0 提供低代码框架,支持从新手到专家级别的用户快速开发视觉AI模型。新版本引入了开源架构、基于Transformer的预训练模型、AI辅助数据标注等功能,显著提升了模型开发效率和精度。TAO Toolkit 5.0 还支持多平台部署,包括GPU、CPU、MCU等,简化了模型训练和优化流程,适用于广泛的AI应用场景。
51 0
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
|
1月前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
1月前
|
人工智能 Ubuntu Linux
安装阿里图文融合AI - AnyText心路历程(安装失败告终,心痛!)
安装阿里图文融合AI - AnyText心路历程(安装失败告终,心痛!)
|
1月前
|
人工智能 编解码 API
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
|
2月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
54 4

热门文章

最新文章