计算机视觉

首页 标签 计算机视觉
# 计算机视觉 #
关注
25944内容
RF-DETR:YOLO霸主地位不保?开源 SOTA 实时目标检测模型,比眨眼还快3倍!
RF-DETR是首个在COCO数据集上突破60 mAP的实时检测模型,结合Transformer架构与DINOv2主干网络,支持多分辨率灵活切换,为安防、自动驾驶等场景提供高精度实时检测方案。
【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B
PAI-Model Gallery 集成国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域,用户可以通过 PAI 以零代码方式实现从训练到部署再到推理的全过程,获得更快、更高效、更便捷的 AI 开发和应用体验。 现阿里云PAI-Model Gallery已同步接入DeepSeek-V3-0324、Qwen2.5-VL-32B-Instruct两大新模型,提供企业级部署方案。
AI时代职业新风口:调研报告揭示57.2%受访者向往AI领域,生成式人工智能(GAI)认证成职场新宠
人工智能(AI)正成为职场新宠,57.2%受访者考虑从事相关职业。AI领域不仅薪资优厚、前景广阔,还充满创新挑战。生成式人工智能(GAI)认证逐渐成为衡量AI技能的重要标准,助力求职者掌握核心知识、提升实战能力及增强合规意识。面对AI时代的机遇与挑战,持续学习、关注行业动态和拓展人脉将成为职场竞争的关键。让我们共同迎接AI带来的美好未来!
Qwen2.5-VL-32B:阿里开源多模态核弹!32B模型吊打自家72B,数学推理封神
阿里巴巴最新开源的Qwen2.5-VL-32B多模态模型,在数学推理、视觉问答等任务中超越前代72B版本,支持图像细粒度理解和复杂逻辑分析,已在HuggingFace开源。
LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理
阿里巴巴通义实验室开源的LHM模型,能够从单张图像快速重建高质量可动画化的3D人体模型,支持实时渲染和姿态控制,适用于AR/VR、游戏开发等多种场景。
StarVector:图像秒变矢量代码!开源多模态模型让SVG生成告别手绘
StarVector是由ServiceNow Research等机构联合开发的开源多模态视觉语言模型,能够将图像和文本转换为可编辑的SVG矢量图形,支持1B和8B两种规模,在SVG生成任务中表现出色。
|
3天前
|
HarmonyOS Next~鸿蒙AI功能开发:Core Speech Kit与Core Vision Kit的技术解析与实践
本文深入解析鸿蒙操作系统(HarmonyOS)中的Core Speech Kit与Core Vision Kit,探讨其在AI功能开发中的核心能力与实践方法。Core Speech Kit聚焦语音交互,提供语音识别、合成等功能,支持多场景应用;Core Vision Kit专注视觉处理,涵盖人脸检测、OCR等技术。文章还分析了两者的协同应用及生态发展趋势,展望未来AI技术与鸿蒙系统结合带来的智能交互新阶段。
多宠识别原理、应用场景及代码示例
多宠识别基于计算机视觉与深度学习技术,通过目标检测(如 YOLO、Faster R-CNN)和图像分类(如 ResNet、EfficientNet),实现对多只宠物的种类、姿态及行为的精准识别。其核心流程包括数据预处理、模型训练与推理输出,广泛应用于宠物医院健康管理、智能家居安防监控等场景。文中提供了基于 PyTorch 的代码示例及多种预训练模型(ResNet、VGG、Inception、EfficientNet)的使用方法,帮助开发者根据计算资源与精度需求选择合适方案。
|
7天前
| |
来自: 视觉智能
从 2D 到 BEV,LSS 技术如何重塑自动驾驶感知?
LSS(Lift-Splat-Shoot)是将多视角图像转换为BEV表示的经典技术,算法虽然老,但应用依然非常广泛
免费试用