计算机视觉

首页 标签 计算机视觉
# 计算机视觉 #
关注
25932内容
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒
Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,具备 240 亿参数,支持文本和图像处理,推理速度快,适合多种应用场景。
|
1天前
| |
GoT:基于思维链的语义-空间推理框架为视觉生成注入思维能力
本文探讨GoT框架如何通过语义-空间思维链方法提升图像生成的精确性与一致性。GoT(Generative Thoughts of Thinking)是一种创新架构,将显式推理机制引入图像生成与编辑领域。它通过语义推理分解文本提示,空间推理分配精确坐标,实现类人的场景构思过程。结合大型语言模型和扩散模型,GoT在复杂场景生成中表现出色,克服传统模型局限。其专用数据集包含900万样本,支持深度推理训练。技术架构融合语义-空间指导模块,确保生成图像高质量。GoT为图像生成与编辑带来技术革新,广泛应用于内容创作与教育工具开发等领域。
|
1天前
|
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
BitNet a4.8 是一种新型的 1-bit 大语言模型架构,由微软研究院和中国科学院大学提出。该模型通过混合量化与稀疏化技术,在注意力和前馈网络中使用 4 位激活值,中间状态采用 8 位量化,有效减少量化误差。相比 BitNet b1.58,BitNet a4.8 在性能相当的情况下显著提升了推理速度,并支持 3 位 KV 缓存。其两阶段训练策略从 8 位逐步适应到 4 位激活值,简化了训练过程。尽管存在特定任务上的局限性,BitNet a4.8 为 1-bit LLM 的发展提供了新方向,未来可进一步优化并拓展至更多领域。
基于yolov2和googlenet网络的疲劳驾驶检测算法matlab仿真
本内容展示了基于深度学习的疲劳驾驶检测算法,包括算法运行效果预览(无水印)、Matlab 2022a 软件版本说明、部分核心程序(完整版含中文注释与操作视频)。理论部分详细阐述了疲劳检测原理,通过对比疲劳与正常状态下的特征差异,结合深度学习模型提取驾驶员面部特征变化。具体流程包括数据收集、预处理、模型训练与评估,使用数学公式描述损失函数和推理过程。课题基于 YOLOv2 和 GoogleNet,先用 YOLOv2 定位驾驶员面部区域,再由 GoogleNet 分析特征判断疲劳状态,提供高准确率与鲁棒性的检测方法。
AI 世界生存手册(二):从LR到DeepSeek,模型慢慢变大了,也变强了
大家都可以通过写 prompt 来和大模型对话,那大模型之前的算法是怎样的,算法世界经过了哪些比较关键的发展,最后为什么是大模型这条路线走向了 AGI,作者用两篇文章共5.7万字详细探索一下。 第一篇文章指路👉《AI 世界生存手册(一):从LR到DeepSeek,模型慢慢变大了,也变强了》
基于MobileNet深度学习网络的活体人脸识别检测算法matlab仿真
本内容主要介绍一种基于MobileNet深度学习网络的活体人脸识别检测技术及MQAM调制类型识别方法。完整程序运行效果无水印,需使用Matlab2022a版本。核心代码包含详细中文注释与操作视频。理论概述中提到,传统人脸识别易受非活体攻击影响,而MobileNet通过轻量化的深度可分离卷积结构,在保证准确性的同时提升检测效率。活体人脸与非活体在纹理和光照上存在显著差异,MobileNet可有效提取人脸高级特征,为无线通信领域提供先进的调制类型识别方案。
LanPaint:零训练消除AI图像违和感!与ComfyUI完美兼容的无损修复神器
LanPaint 是一款基于 Stable Diffusion 的零训练 AI 图像修复工具,支持无缝修复和内容替换,适用于从简单修复到复杂损坏恢复的多种场景。
|
6天前
|
《鸿蒙AI开发:第三方库管理与更新全攻略》
在鸿蒙系统人工智能应用开发中,第三方库的管理与更新至关重要。首先需根据项目需求精准选择适配的库,如OpenCV、TensorFlow Lite等,并关注兼容性与社区支持。引入库时可借助ohpm工具,通过指令或配置文件实现便捷管理。版本管理要求明确指定依赖版本,定期更新并充分测试以确保稳定性。更新过程中需谨慎操作,解决依赖冲突,保障应用功能正常运行。整个流程从选择到更新环环相扣,助力开发者构建高效稳定的AI应用。
|
6天前
|
《探索AI与鸿蒙融合的开源宝藏:这些框架你不能错过》
人工智能(AI)与鸿蒙系统的集成开发正引领技术创新潮流,为用户带来更智能、流畅的体验。华为HiAI作为鸿蒙AI生态的核心引擎,提供计算机视觉、语音识别等多领域支持,实现设备间协同共享;TensorFlow Lite for Microcontrollers专为资源受限的物联网设备优化,助力轻量级AI模型运行;MindSpore Lite适合移动和边缘设备,具备高效推理性能;OpenCV for HarmonyOS则在计算机视觉领域大放异彩,赋能图像处理和视频分析。这些开源框架各具优势,为开发者提供了强大工具,推动AI与鸿蒙生态繁荣发展。
阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%
R1-Omni 是阿里通义开源的全模态大语言模型,专注于情感识别任务,结合视觉和音频信息,提供可解释的推理过程,显著提升情感识别的准确性和泛化能力。
免费试用