IDC最新报告:阿里视觉AI能力中国厂商第一

简介: 视觉AI一直以来都是AI研究的重要领域,具有非常广泛的应用。

10月26日,国际权威研究机构IDC发布《亚太(日本除外)视觉AI软件平台厂商2021评估报告》。报告显示,阿里巴巴已成为视觉AI亚太市场的主要厂商(Major Player),其视觉AI能力位于中国厂商之首,尤其在生产力相关领域表现强劲。

IDC报告分析说,视觉AI一直以来都是AI研究的重要领域,具有非常广泛的应用。IDC按用途将视觉AI分为三类:生产力、终端用户体验、决策推荐。阿里巴巴的视觉AI覆盖全部三类,且在生产力上拥有核心优势,广泛部署在智慧城市、交通治理、产品质检等领域,比如太阳能电池和钢板的质检。IDC称,阿里巴巴视觉AI利用了AI-IoT边缘计算平台的优势,能够快速部署,不断进化,因此值得智慧城市、医疗健康、制造、物流等垂直行业的客户重点考虑。

据介绍,依托达摩院底层技术创新、阿里云商业化及生态能力,阿里巴巴视觉AI快速崛起,已打造出阿里云视觉智能开放平台,以及城市大脑、工业视觉、医疗健康、AI Earth等行业平台。其中,视觉智能开放平台已提供超过200项视觉能力,数量位于中国第一。该平台汇聚了阿里内部的先进视觉AI能力,整合对外开放,以降低AI使用门槛,目前日均调用过亿,应用广泛,从文字识别到菜品、水果、垃圾识别,还能将视频增强、修复老照片、老电影…

在行业视觉方面,阿里针对质检场景打造的工业视觉平台“见微”,以低代码的方式让AI落地工厂,不需要懂算法,只需要懂业务,就能训练和优化AI模型。“见微”平台已用于动力电池的防爆阀的质量检测,检出率大于99.9%,误报率低于2%,提升了电动汽车行驶的安全性。此外,“见微”还广泛应用于光伏、PCB、消费电子等行业,助力中国工厂持续提升中国制造的质量。
v2_91c36369af064467862c54c0c635d267_img_png.png

阿里已成为视觉AI亚太市场主要厂商


本文转载自36Kr,本文一切观点和机器智能技术圈子无关。原文链接
免费体验百种AI能力以及试用热门离线SDK:【点此跳转】

相关文章
HarmonyOS NEXT AI基础视觉服务-背景替换
这是一个基于AI基础视觉服务的背景替换案例,通过调用设备相册选择图片并智能分割主体,支持动态更换背景颜色。主要步骤包括:1) 导入模块与定义组件;2) 实现图片选择与格式转换;3) 使用`subjectSegmentation.doSegmentation`接口完成主体分割;4) 通过随机RGB值实现背景色动态更换。代码结构清晰,功能完整,适合学习AI图像处理技术。
HarmonyOS NEXT AI基础视觉服务-背景替换
HarmonyOS NEXT AI基础视觉服务-人脸对比
这是一套基于AI基础视觉服务实现的人脸对比系统,用户可通过调用设备相册选择两张图片,系统将提取人脸特征并计算相似度,最终以结构化数据形式展示对比结果(如相似度值和是否为同一人)。代码涵盖模块导入、双图选择、图像处理、人脸对比核心逻辑及UI界面构建,支持异常处理与权限管理,确保功能稳定性和兼容性。适配场景包括身份验证、人脸匹配等,具有较高的实用价值。
HarmonyOS NEXT AI基础视觉服务-人脸对比
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
MM-StoryAgent 是上海交通大学与阿里巴巴联合推出的开源多模态、多智能体框架,用于生成沉浸式的有声故事绘本视频,支持文本、图像、语音等多种模态的生成与对齐。
102 7
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
HarmonyOS NEXT AI基础视觉服务-文字识别
本案例展示了一款基于AI基础视觉服务的文字识别应用,通过调用设备相机拍摄照片并识别图片中的文字内容。主要实现步骤包括:1) 导入所需功能模块;2) 调用相机获取图片URI;3) 将图片转换为可识别的像素图;4) 配置视觉识别参数并执行文字识别;5) 构建界面组件,实现拍照与结果显示交互。核心要点涵盖相机权限、图像格式兼容及结构化识别结果处理,完整代码整合了各功能模块的调用流程,确保功能顺畅运行。
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
822 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
HarmonyOS NEXT AI基础视觉服务-人脸识别
这是一个基于AI基础视觉服务的人脸识别案例,通过调用设备相册选择图片,利用MediaLibraryKit、ImageKit和CoreVisionKit等模块完成图像处理与人脸检测,并展示结构化结果。核心功能包括:相册访问授权、图像数据转换、人脸位置及特征点检测,最终以弹窗形式输出检测信息。代码涵盖模块导入、功能实现与UI构建,适合学习AI视觉应用开发流程。
ai-api-union项目,适配各AI厂商api
本项目旨在实现兼容各大模型厂商API的流式对话和同步对话接口,现已支持智谱、豆包、通义、通义版DeepSeek。项目地址:[https://gitee.com/alpbeta/ai-api-union](https://gitee.com/alpbeta/ai-api-union)。通过`ChatController`类暴露两个接口,入参为`ChatRequest`,包含会话ID、大模型标识符和聊天消息列表。流式对话返回`Flux<String>`,同步调用返回`String`
96 2
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
41 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展

热门文章

最新文章