视觉智能开放平台

首页 标签 视觉智能开放平台
阿里云图像识别Java调用示例参考
图像识别服务(Image Recognition)基于大数据和深度学习实现,可精准识别图像中的视觉内容,包括上千种物体标签、数十种常见场景等,包含场景分类、图像打标、鉴黄等在线API服务模块,应用于智能相册管理、图片分类和检索、图片安全监控等场景。
视觉智能开放平台【图像增强】【目标检测】上线新算法啦!各种黑科技等你体验~
尊敬的开发者您好,感谢您对阿里云视觉智能平台的支持,近期平台在【图像增强】【目标检测】大类下上线了7个视觉AI算法,分别是图像隐形文字水印、图像隐形图片水印、图像去水印、图像去字幕、物体检测、白底图检测以及透明图检测,接下来给您逐一介绍下。
阿里云视觉智能开放平台--人脸识别使用教程(使用本地图片)
前面在博客:阿里云视觉智能开放平台--人脸识别使用教程 介绍了如何在智能视觉开放平台使用人脸识别的接口,示例主要演示了1:N人脸查找的使用流程,使用的是OSS的图片,发现很多同学对本地图片的使用疑问较多,这里以人脸属性识别API为例演示如何使用本地图片。
带你读《深度学习与图像识别:原理与实践》之三:图像分类之KNN算法
这是一部从技术原理、算法和工程实践3个维度系统讲解图像识别的著作,由阿里巴巴达摩院算法专家、阿里巴巴技术发展专家、阿里巴巴数据架构师联合撰写。在知识点的选择上,本书广度和深度兼顾,既能让完全没有基础的读者迅速入门,又能让有基础的读者深入掌握图像识别的核心技术;在写作方式上,本书避开了复杂的数学公式及其推导,从问题的前因后果 、创造者的思考过程,利用简单的数学计算来做模型分析和讲解,通俗易懂。更重要的是,本书不仅仅是聚焦于技术,而是将重点放在了如何用技术解决实际的业务问题。
video-subtitle-remover(VSR)--开源AI去字幕方案深度解析
VSR(video-subtitle-remover)是一款开源AI视频去字幕工具,支持本地运行,无需上传数据。它融合STTN、LaMa、ProPainter三大前沿修复模型,可智能检测并擦除硬字幕/水印,保持原分辨率与画质。兼容CUDA/DirectML,适配NVIDIA/AMD/Intel显卡,兼顾隐私性、可控性与高性能。
历史科普视频的AI自动化生产工作流:从全手动到半自动的工程演进
本文量化历史科普视频制作瓶颈,对比全手动(Stable Diffusion/GPT-SoVITS/Manim等开源栈)与半自动(花生AI为核心)方案。实测混合工作流将单期耗时从29–49小时压缩至10–15小时,效率提升60%+,兼顾质量、可控性与落地性。
Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频
Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型,具有3B、7B和72B三种不同规模,能够识别常见物体、分析图像中的文本、图表等元素,并具备作为视觉Agent的能力。
免费试用