视觉智能开放平台

首页 标签 视觉智能开放平台
【OpenVI-图搜系列—多模态检索实战篇】基于表征大模型的多模态检索系统
信息检索产品几乎是人们生活中必不可少的工具,经常用的有文本搜文本、图片搜图片等应用。以上任务均为单模态的检索。而多模态检索则处理涵盖原有的单模态检索任务以外,也包含跨模态检索任务,即文搜图、文搜视频等任务。要实现这一任务,则需要底层的表征模型具备图文对齐的能力,换句话说,要实现多模态检索,表征模型应实现将不同模态信息的特征映射到同一个域内,从而实现不同模态之间的相互检索。CLIP的多模态技术出现以来,给多模态检索领域带来了新的技术变革,使得实现基于通用表征大模型的大规模多模态检索系统成为可能。
基于图像识别的面瘫检测技术
图像识别是通过计算机对特定情况进行图像采集处理,分析匹配目标,提取特征,训练分类模型等步骤实现,在国内外科学家的努力下,实现了突飞猛进的变化,人们开始将这一技术应用于,医学,农业,安防,交通,车辆领域。在这一背景之下,许多先进的医疗手段都离不开图像识别技术的支持,小到日常的体检如胸片,心电图我们都可以通过自助取片获得计算机提供的初步诊断信息,之后再找医生问诊,大到一些微创手术,脑部ct技术,心脏病理分析,肺结核图像识别,糖尿病患者的视网膜图像技术
智慧校园-建设篇——开放视觉AI场景解决方案
智慧校园建设是现阶段高校研究的重点方向。通过如今科技发展,将科学技术、先进设备更好的融合到校园各项工作的开展以及校园安全的保障,对校园来说是至关重要的。 作者将从校园安全建设、校园文化生活两个方向,挖掘开放视觉API在智慧校园中的更多应用。
|
5月前
| |
来自: 视觉智能
FFmpeg开发笔记(十八)FFmpeg兼容各种音频格式的播放
《FFmpeg开发实战》一书中,第10章示例程序playaudio.c原本仅支持mp3和aac音频播放。为支持ogg、amr、wma等非固定帧率音频,需进行三处修改:1)当frame_size为0时,将输出采样数量设为512;2)遍历音频帧时,计算实际采样位数以确定播放数据大小;3)在SDL音频回调函数中,确保每次发送len字节数据。改进后的代码在chapter10/playaudio2.c,可编译运行播放ring.ogg测试,成功则显示日志并播放铃声。
|
5月前
| |
来自: 视觉智能
YOLOv5改进 | 主干网络 | 用EfficientNet卷积替换backbone【教程+代码 】
在YOLOv5的GFLOPs计算量中,卷积占了其中大多数的比列,为了减少计算量,研究人员提出了用EfficientNet代替backbone。本文给大家带来的教程是**将原来的主干网络替换为EfficientNet。文章在介绍主要的原理后,将手把手教学如何进行模块的代码添加和修改,并将修改后的完整代码放在文章的最后,方便大家一键运行,小白也可轻松上手实践。以帮助您更好地学习深度学习目标检测YOLO系列的挑战。
免费试用