计算机视觉

首页 标签 计算机视觉
# 计算机视觉 #
关注
25085内容
|
25天前
|
opencv图像形态学
图像形态学是一种基于数学形态学的图像处理技术,它主要用于分析和修改图像的形状和结构。
|
25天前
|
AI计算机视觉笔记二十:PaddleOCR环境搭建及测试
OCR技术广泛应用于日常生活中,与人脸识别一样常见。PaddleOCR是一个基于飞桨的OCR工具库,具有超轻量级中文OCR模型,支持中英文数字组合、竖排及长文本识别。本文档详细介绍了PaddleOCR的学习过程,包括环境搭建、安装、样本标注及测试步骤。使用AutoDL云平台进行环境创建,并提供了详细的命令行操作指南,帮助用户顺利完成PaddleOCR的部署与测试。
|
25天前
|
AI计算机视觉笔记二十 八:基于YOLOv8实例分割的DeepSORT多目标跟踪
本文介绍了YOLOv8实例分割与DeepSORT视觉跟踪算法的结合应用,通过YOLOv8进行目标检测分割,并利用DeepSORT实现特征跟踪,在复杂环境中保持目标跟踪的准确性与稳定性。该技术广泛应用于安全监控、无人驾驶等领域。文章提供了环境搭建、代码下载及测试步骤,并附有详细代码示例。
|
25天前
|
AI计算机视觉笔记二十三:PP-Humanseg训练及onnxruntime部署
本文介绍了如何训练并使用PaddleSeg的人像分割模型PP-HumanSeg,将其导出为ONNX格式,并使用onnxruntime进行部署。首先在AutoDL服务器上搭建环境并安装所需库,接着下载数据与模型,完成模型训练、评估和预测。最后,通过paddle2onnx工具将模型转换为ONNX格式,并编写预测脚本验证转换后的模型效果。此过程适用于希望在不同平台上部署人像分割应用的开发者。
|
27天前
|
【Java的SIMD革命】JDK 22向量API:释放硬件潜能,让Java应用性能飙升!
【9月更文挑战第7天】 JDK 22向量API的发布标志着Java编程语言在SIMD技术领域的重大突破。这一新特性不仅释放了现代硬件的潜能,更让Java应用性能实现了飙升。我们有理由相信,在未来的发展中,Java将继续引领编程语言的潮流,为开发者们带来更加高效、更加强大的编程体验。让我们共同期待Java在SIMD技术的推动下开启一个全新的性能提升时代!
|
27天前
|
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治切分增大分辨率后遗症
【9月更文挑战第7天】华中科技大学与华南理工大学联合发布了一款名为Mini-Monkey的2B参数多模态大语言模型,采用多尺度自适应裁剪策略(MSAC)和尺度压缩机制(SCM),在高分辨率图像处理方面取得突破,尤其在文档理解上超越了8B参数的SOTA模型InternVL2-8B。Mini-Monkey仅需8张RTX 3090显卡即可完成训练,展现出高效性能,但处理复杂图像场景时仍存局限。论文详情见:https://arxiv.org/pdf/2408.02034。
|
27天前
|
基于深度学习的感知和认知系统
基于深度学习的感知-认知系统结合了感知和认知两大核心模块,旨在为机器提供从数据采集、分析到决策制定的一整套能力。这种系统模仿人类的感知(如视觉、听觉)和认知(如推理、决策)过程,能够高效地感知复杂环境,并进行智能决策。
WK
|
28天前
|
鱼群算法
鱼群算法(FSA)是一种基于仿生学的群智能算法,模拟鱼群在水中集群、觅食和逃避捕食的行为,寻找问题空间中的全局最优解。该算法由李晓磊等人于2002年提出,通过初始化鱼群、评估适应度、更新行为和终止条件等步骤进行迭代优化。其优点包括实现简单、全局搜索能力强和自适应性好,但收敛速度较慢且易陷入局部最优。FSA已广泛应用于函数优化、路径规划、图像分割等领域,并有望通过改进性能、结合其他算法及拓展应用领域等方式进一步提升其应用价值。
|
28天前
|
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
【9月更文挑战第6天】最近,一篇论文在AI领域引起广泛关注,展示了如何以极低成本训练高质量文本生成图像(T2I)模型。研究者通过随机遮蔽图像中75%的patch并采用延迟遮蔽策略,大幅降低计算成本,同时结合Mixture-of-Experts(MoE)层提升性能。最终,他们仅用1890美元就训练出了一个拥有11.6亿参数的模型,在COCO数据集上取得12.7的FID分数。这一成果比Stable Diffusion成本低118倍,为资源有限的研究人员提供了新途径。尽管如此,该方法在其他数据集上的表现及进一步降低成本的可行性仍需验证。
|
28天前
|
ECCV 2024:南洋理工三维数字人生成新范式:结构扩散模型
【9月更文挑战第6天】南洋理工大学团队提出了一种名为StructLDM的新型三维数字人生成方法,旨在克服现有技术在图像合成质量、细节捕捉及人体结构建模等方面的不足。该方法通过结构化潜在空间、结构化3D感知解码器及结构化潜在扩散模型三项关键技术,实现了高质量的三维数字人生成与编辑,并在多个数据集上展示了卓越的性能和多样性。未来研究将进一步提升模型的鲁棒性和泛化能力。论文预计在ECCV 2024上展示。论文地址:https://arxiv.org/pdf/2404.01241。
免费试用