新一代视频AI服务 —— 阿里云智能视觉重磅发布

简介: 3月27日下午,第51期阿里云产品发布会-智能视觉产品隆重发布,本次产品发布会内容涵盖产品特性、应用场景、技术原理解读、开发者实战实操等内容,首次面向全网用户深入的解读了智能视觉的前世今生。 行业背景 随着人工智能的技术不断成熟, AI逐渐在各行业内落地。

3月27日下午,第51期阿里云产品发布会-智能视觉产品隆重发布,本次产品发布会首次面向全网用户深入的解读了智能视觉的前世今生。

行业背景

随着人工智能的技术不断成熟,AI逐渐在各行业内落地。在新零售领域,我们通过物体识别判断货品位置和数量;甚至在养猪场,用AI技术检测养猪的位置及数量等等。然而除了一些非常成熟的基础感知层AI能力如人脸识别、OCR等可以直接应用,实际上绝大部分场景都需要用业务标注数据来进行单独训练的,所以定制化的需求越来越多。每个定制化的模型,都是需要算法工程师通过大量的自身业务标注数据,经过不断的演算、测试、训练,来搭建深度神经网络模型。而实际上传统企业想要自建训练模型又将面临着专业人才十分稀缺、开发落地周期冗长等等困境。

如此一来,如何以最低的成本实现AI技术落地变成了行业急需解决的问题。

新一代视频AI服务——智能视觉

近期,阿里云发布智能视觉产品,帮助零机器学习背景、零算法基础的企业或者开发者们,实现高质量定制化模型训练的快速落地,具备图像分类、物体检测、直播识别等AI能力,可有效应用于视频监控、互联网短视频内容识别归类、新零售物件统计、工业质检等场景。

有了智能视觉,即使零算法基础的开发者,都可以进行页面化一键式训练和预测。通过上传少量业务数据,快速训练定制化模型,最快10分钟完成训练和部署。
image

智能视觉整体的产品架构是:用户通过对象存储OSS导入或本地上传图片训练集,对图像及图像内物体进行标签管理,实现一键训练(目前已经支持图像分类和物体检测),标注好之后一键生成迭代,生成业务定制专属模型,并可以通过迭代来不断完善模型的准召率、精准度,最终以API的形式将模型训练能力快速输出应用于业务之中,同时支持对图片、视频、直播流、监控流等多种格式的预测。
image

智能视觉技术原理

市场上大部分AI的服务是基于图片进行处理,在面对视频的时候,通常把视频按照固定的时间间隔采样出来,批量截取画面并进行结果汇聚。这样对视频的处理方式普遍存在时效性差、稳定差、复杂性高、信息丢失等问题。

基于阿里云视频云团队多年音视频编解码、媒体处理相关技术经验,智能视觉构建全新的面向视频架构:把视频作为第一类对象(First-Class Object)来看待。把视频解码、时间域分析、智能汇聚、音频处理等引入到系统里面来,把视频处理和AI计算有机结合,以面向视频的方式,在视频处理的同时完成AI计算,精简的流程能够大幅度缩短处理时间,从时间维度提升分析效果,并能简化业务架构,让用户聚焦在核心业务的发展上。为用户提供高效稳定、简单易用、功能丰富的视频AI服务。

image

点击阅读阿里云高级技术专家周源:《面向视频的全新AI架构 ——智能视觉技术全解》全文

智能视觉产品优势

一、少量样本,更高精度

在深度学习层面,在其他条件相同的情况下,数据越多训练效果是越好的。这就产生了一个问题,更好的效果一定需要更多的数据,这需要花费大量的人力去标注。

智能视觉采用数据增广策略,增加数据的多样性,加强模型泛化能力,对图像进行旋转、斜切、仿射变换、对比度调整、色度变化、水平镜像等变换,增加数据量,同时保持增广数据的真实性,实现了少量数据情况下效果增强10-15%的训练效果,同时有效降低标注数据的人力和时间成本。

二、迁移学习,训练高效

智能视觉运用迁移学习的技术,根据自然图像中的基础边缘、色块、纹理的规律来归纳物体特征,并且通过在浅层网络中复用这些基础特征,来减少标注数据,能以更快的时间、更高的质量生成业务场景相关数据,大幅度减少数据需求,进一步减少计算量,达到缩短新模型训练时间的效果。大概规模在100张的图片,生成模型只需要10分钟。

三、全面模型效果评估,快速迭代

基于阿里云视频云团队多年丰富的视频处理经验,针对用户训练的模型给出专业的、全面的效果评估,同时用户也可以选择自己上传图片、直播、监控等视频流输入进行校验,如果觉得准确率不够高的话,还可以再次上传数据进行再一次训练,实现快速迭代。

四、全界面化操作,降低人力和时间成本

有了智能视觉,就意味着原本需要众多专业AI和算法工程师才能搭建好的AI模型,现在在控制台上通过简单的点击和上传图片,甚至完全不需要代码,就可以完成了,整个过程操作简单,从数据、模型到接口,一站式服务,全界面化管理,可以节省大量的人力成本和时间成本,实现快速落地。

如何接入智能视觉

在发布会中,智能视觉的产品经理袁华良为网友演示了从零开始搭建一个训练模型的整个过程。

第一步,在阿里云官网智能视觉产品详情页快速了解产品信息,申请开通,审批通过后登录控制台,按照指引完成开通。

image

第二步,首次登陆,点击马上创建模型。

image

第三步,添加模型,上传图片,在图片中进行标注。为了让训练的数据更接近真实效果,建议一个模型至少有2个分类,每个分类的图片不少于15张。上传完成后,点击一键训练即可。

_

第四步,训练结果返回后,可以看控制台中看到准确率、召回率、mAP等数据。当训练结果评估或者校验结果不理想的时候,可以将新图片加入训练集,重新进行标注,进行再一次训练与模型迭代。

image

目前控制台支持本地导入数据,API接口也支持从OSS、直播流、监控流的数据导入,点击查看具体的接入文档详情。

应用场景

智能视觉可应用在视频监控领域,根据监控画面中的内容,判断是否为出现违规现象,如出现车辆,打斗等;同时可以应用在互联网短视频领域,基于图像对内容识别归类,进行精准推送,提升用户的点击率和观看体验;在新零售领域,智能视觉可以检测实体店货架中的货品摆放位置及数量统计,减少巡检工作量。同时,在工业质检、农业养殖、医疗诊断等场景也可以有很好的应用。

image

目前智能视觉在阿里云官网开放公测,用户可以在线提交信息,进行免费试用的申请。我们欢迎各产业的伙伴们与阿里云共建视频领域的AI应用。

阿里云视频云团队具有多年音视频编解码、媒体处理经验,基于人工智能、深度学习技术,通过视频多模态内容理解、结构化分析处理,推出视频审核、视频DNA、视频智能生产、智能视觉等能力,并且与点播、直播、短视频、CDN内容分发、边缘计算组合形成一站式智能视频服务。欢迎大家登陆官网视网膜了解视频AI产品家族

image

欢迎大家扫码加入智能视觉业务咨询钉钉群,与阿里云专家面对面交流。
image

回顾直播发布会
产品详情
申请测试
参与聚能聊话题,赢取奖品

目录
相关文章
|
14天前
|
人工智能 Java Serverless
阿里云函数计算助力AI大模型快速部署
随着人工智能技术的快速发展,AI大模型已经成为企业数字化转型的重要工具。然而,对于许多业务人员、开发者以及企业来说,探索和利用AI大模型仍然面临诸多挑战。业务人员可能缺乏编程技能,难以快速上手AI模型;开发者可能受限于GPU资源,无法高效构建和部署AI应用;企业则希望简化技术门槛,以更低的成本和更高的效率利用AI大模型。
73 12
|
2天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
42 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
4天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
12天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
74 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
56 7
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
|
2天前
|
JSON 分布式计算 数据处理
加速数据处理与AI开发的利器:阿里云MaxFrame实验评测
随着数据量的爆炸式增长,传统数据分析方法逐渐显现出局限性。Python作为数据科学领域的主流语言,因其简洁易用和丰富的库支持备受青睐。阿里云推出的MaxFrame是一个专为Python开发者设计的分布式计算框架,旨在充分利用MaxCompute的强大能力,提供高效、灵活且易于使用的工具,应对大规模数据处理需求。MaxFrame不仅继承了Pandas等流行数据处理库的友好接口,还通过集成先进的分布式计算技术,显著提升了数据处理的速度和效率。
|
3天前
|
人工智能 大数据 测试技术
自主和开放并举 探索下一代阿里云AI基础设施固件创新
12月13日,固件产业技术创新联盟产业峰会在杭州举行,阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。
|
19天前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
36 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
6天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
|
17天前
|
人工智能 NoSQL MongoDB
阿里云与MongoDB庆祝合作五周年,展望AI赋能新未来
阿里云与MongoDB庆祝合作五周年,展望AI赋能新未来