
【OpenVI—论文解读系列】快速动作识别TPS ECCV论文深入解读
高效的时空建模(Spatiotemporal modeling)是视频理解和动作识别的核心问题。相较于图像的Transformer网络,视频由于增加了时间维度,如果将Transformer中的自注意力机制(Self-Attention)简单扩展到时空维度,将会导致时空自注意力高昂的计算复杂度和空间复杂度。
【图像分割】基于Kullback-Leibler 散度的模糊 C 均值 (FCM) 算法实现图像分割附matlab代码
【图像分割】基于Kullback-Leibler 散度的模糊 C 均值 (FCM) 算法实现图像分割附matlab代码

[OpenVI-视觉生产系列之视频稳像实战篇]再见吧云台,使用AI“魔法”让视频稳定起来
随着自媒体与短视频的兴起,人们有了越来越多的拍摄视频的需求。然而由于手持拍摄、硬件限制等原因,利用手机等普通摄影设备拍摄的视频难免存在视频抖动问题。尤其是开启较高倍数的变焦后,手持拍摄很难拍摄到稳定的视频,极易产生抖动的现象。使用云台、斯坦尼康等外设可以缓解这样的抖动,但是很多时候多带一个外设降低了拍摄视频的便利程度,会使得随时随地的拍摄体验大打折扣。

从图片提取文字的终极解决方法 ——【通用文字识别 API】
通用文字识别技术,也称为OCR(Optical Character Recognition,光学字符识别),就是一种将图像或扫描件中的文字识别出来并转化为可编辑、可搜索的数字化文本的技术。

【OpenVI—视觉生产系列之视频插帧实战篇】几行代码,尽享流畅丝滑的视频观感
随着网络电视、手机等新媒体领域的快速发展,用户对于观看视频质量的要求也越来越高。当前市面上所广为传播的视频帧率大多仍然处于20~30fps,已经无法满足用户对于高清、流畅的体验追求。而视频插帧算法,能够有效实现多倍率的帧率提升,有效消除低帧率视频的卡顿感,让视频变得丝滑流畅。配合其它的视频增强算法,更是能够让低质量视频焕然一新,让观众享受到极致的播放和观看体验。

【OpenVI-图搜系列—多模态检索实战篇】基于表征大模型的多模态检索系统
信息检索产品几乎是人们生活中必不可少的工具,经常用的有文本搜文本、图片搜图片等应用。以上任务均为单模态的检索。而多模态检索则处理涵盖原有的单模态检索任务以外,也包含跨模态检索任务,即文搜图、文搜视频等任务。要实现这一任务,则需要底层的表征模型具备图文对齐的能力,换句话说,要实现多模态检索,表征模型应实现将不同模态信息的特征映射到同一个域内,从而实现不同模态之间的相互检索。CLIP的多模态技术出现以来,给多模态检索领域带来了新的技术变革,使得实现基于通用表征大模型的大规模多模态检索系统成为可能。

m基于GRNN广义回归神经网络和HOG特征提取的人体姿态检测识别matlab仿真,样本集为TOF深度图
m基于GRNN广义回归神经网络和HOG特征提取的人体姿态检测识别matlab仿真,样本集为TOF深度图

【OpenVI-视觉生产系列】老片图像上色,一键开源体验
随着摄影技术的演进,彩色照片在现在已经非常普及,但仍然有大量历史黑白照片遗留。图像上色可以对这些宝贵的旧时代遗产进行修复,令老照片重获新生。

【OpenVI-AIGC系列之通义文生图1.0实战篇】用AI画兔子喜迎新春,AIGC有什么魔力?
AIGC指的是AI Generated Content,即由AI创作的内容,是继UGC(User Generated Content用户创造内容,如抖音b站等平台)、PGC(Professional Generated Content专业生产内容,如腾讯视频等)之后的新型内容生产方式。由于AIGC生成内容版权可以属于用户,在后续二创、不同平台内容分发方面优势明显。 up主们纷纷使用AIGC进行短视频内容创作,能绘画天马行空的场景、栩栩如生的人物。对于普通人来说,这些新技术可以提供更好的创意平台和更丰富的视觉体验,使个人更容易创建和分享自己的艺术作品,从而激发更多的创意和想象力。

【OpenVI-图像超分实战篇】别用GAN做超分了,快来试试基于扩散模型的图像超分吧!
近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时,保持细节特征,补充生成真实的纹理,其中应用广泛的工作是Real-ESRGAN。 扩散模型DiffusionModel在图像超分辨率这方面的新的应用,展现出其超过GAN的生成多样性和真实性。看完后,你会发现,还在用GAN做图像超分辨率吗?已经OUT了,快来试试DiffusionModel吧!

阿里视觉智能开放平台(灵杰AI开放服务)【评测】人脸活体检测、智能美肤、文字识别等功能很多等待你的开发
阿里视觉智能开放平台(灵杰AI开放服务)DetectLivingFace 人脸活体检测、智能美肤、文字识别等功能很多等待你的开发
OCR文字识别软件图片文字识别软件ABBYY FineReader16
ABBYY FineReader16是非常好的一款 OCR 识别软件(可以识别不可编辑的 PDF 和图片文件),操作非常简单。ABBYY FineReader 16是一款知名的OCR文字识别软件(图片文字识别)。ABBYY 15采用了ABBYY最新推出的基于AI的OCR技术,可以更轻松地在同一工作流程中对各种文档进行数字化、检索、编辑、加密、共享和协作。

基于darknet开发了一系列的快速启动脚本,旨在让图像识别新手或者开发人员能够快速的启动一个目标检测(定位)的项目
基于darknet开发了一系列的快速启动脚本,旨在让图像识别新手或者开发人员能够快速的启动一个目标检测(定位)的项目

基于 opencv tenserflow2.0 实战 CNN 人脸识别锁定与解锁 win10 屏幕
基于 opencv tenserflow2.0 实战 CNN 人脸识别锁定与解锁 win10 屏幕

使用Tensorflow实现的MTCNN和MobileFaceNet实现的人脸识别系统GUI界面 附代码 详细教程
使用Tensorflow实现的MTCNN和MobileFaceNet实现的人脸识别系统GUI界面 附代码 详细教程

阿里云文字识别(OCR)服务控制台自行升级并发操作指导
阿里云文字识别(Optical Character Recognition,OCR)可以将图片中的文字信息转换为可编辑文本,是一款由阿里巴巴达摩院权威AI团队打造的全栈全场景OCR文本识别类产品。根据客户的业务场景和需求,将产品分为了通用文字识别、个人证照识别、票据凭证识别、教育场景识别、车辆物流识别、企业资质识别、小语种文字识别等,满足各种客户的图片识别需求。开通OCR文字识别API服务后即可拥有10QPS的并发,如需更多并发您也可购买QPS叠加包来提升API并发量。然而一些新老客户由于对云市场控制台和官网OCR控制台的不熟悉往往容易混淆或找不到相应的控制台。本文简单演示一下提升操作以供参考
【目标检测】基于YOLO神经网络实现人体举重时杠铃的路径和速度跟踪附matlab代码
【目标检测】基于YOLO神经网络实现人体举重时杠铃的路径和速度跟踪附matlab代码

数字图像处理实验(六)|图像分割{阈值分割、直方图法、OTUS最大类间方差法(edge、im2dw、imfilter、imresize)、迭代阈值法、点检测}(附matlab实验代码和截图)
数字图像处理实验(六)|图像分割{阈值分割、直方图法、OTUS最大类间方差法(edge、im2dw、imfilter、imresize)、迭代阈值法、点检测}(附matlab实验代码和截图)

《开发者评测局》之DetectLivingFace人脸活体检测评测征集令发布
写下你的使用体验,就有机会赢取Kindle Paperwhite4、评测局定制卫衣、云小宝帆布包、50万点图像类通用资源包等好礼!🎁

《开发者评测局》ImageSearch图像搜索评测上线,快来赢取神秘好礼🎁
写下你的使用体验,就有机会赢取Kindle Paperwhite4、评测局定制卫衣、云小宝帆布包、图搜6个月免费试用(1QPS,图片库最大容量10万)等好礼!