Fudan DISC推出跨视觉语言模态预训练模型MVPTR:多层次语义对齐实现SOTA(已开源)
Fudan DISC推出跨视觉语言模态预训练模型MVPTR:多层次语义对齐实现SOTA(已开源)
Prompt工程师指南从基础到进阶篇:用于开发和优化提示,以有效地使用语言模型(LMs)进行各种应用和研究主题
Prompt工程师指南从基础到进阶篇:用于开发和优化提示,以有效地使用语言模型(LMs)进行各种应用和研究主题
计算机视觉论文速递(九)EfficientFormer: Vision Transformers at MobileNet Speed 轻量化实时推理的Transformer模型
Vision Transformers (ViT) 在计算机视觉任务中取得了快速进展,在各种基准测试中取得了可喜的成果。然而,由于大量的参数和模型设计,例如注意力机制,基于 ViT 的模型通常比轻量级卷积网络慢几倍。因此,应用部署 ViT 具有很大的挑战性,尤其是在移动设备等资源受限的硬件上。
计算机视觉论文速递(八)ViTAE:COCO人体姿态估计新模型取得最高精度81.1AP
人体姿态估计是计算机视觉领域的基本研究问题之一,具有很广泛的实际应用,例如医疗健康领域的行为分析、元宇宙领域的AIGC内容生成等。但是,由于人体姿态丰富,人物衣着表观变化多样,光照和遮挡等因素,人体姿态估计任务非常具有挑战性。之前的深度学习方法主要研究了新的骨干网络设计、多尺度特征融合、更强的解码器结构和损失函数设计等。
当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
深度学习实战(五):通过scikit-learn模板两步构建自己的机器学习模型
常见的问题类型只有三种:分类、回归、聚类。而明确具体问题对应的类型也很简单。比如,如果你需要通过输入数据得到一个类别变量,那就是分类问题。分成两类就是二分类问题,分成两类以上就是多分类问题。常见的有:判别一个邮件是否是垃圾邮件、根据图片分辩图片里的是猫还是狗等等。
计算机视觉论文速递(三)YOLO-Pose:《Enhancing YOLO for Multi Person Pose .....》实时性高且易部署的姿态估计模型
现有的基于Heatmap的两阶段方法并不是最优的,因为它们不是端到端训练的,且训练依赖于替代L1损失,不等价于最大化评估度量,即目标关键点相似度(OKS)。
LLM大模型实战 —— DB-GPT阿里云部署指南
DB-GPT 是一个实验性的开源应用,它基于FastChat,并使用vicuna-13b作为基础模型, 模型与数据全部本地化部署, 绝对保障数据的隐私安全。 同时此GPT项目可以直接本地部署连接到私有数据库, 进行私有数据处理, 目前已支持SQL生成、SQL诊断、数据库知识问答、数据处理等一系列的工作。
Stable Diffusion云端部署只需三步, 不吃电脑配置, 模型快速部署
Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。具体来说,得益于Stability AI的计算资源支持和LAION的数据资源支持,Stable Diffusion在LAION-5B的一个子集上训练了一个Latent Diffusion Models,该模型专门用于文图生成。
7 Papers & Radios | 可控核聚变登Nature封面;去噪扩散概率模型极限修复图像
7 Papers & Radios | 可控核聚变登Nature封面;去噪扩散概率模型极限修复图像
颠覆传统、大规模检索系统首次引入「热刷新」模型升级,腾讯ARC Lab论文入选ICLR 2022
颠覆传统、大规模检索系统首次引入「热刷新」模型升级,腾讯ARC Lab论文入选ICLR 2022