谷歌推出创新方法：通过自然文本提示，快速训练视觉模型-阿里云开发者社区

谷歌推出创新方法：通过自然文本提示，快速训练视觉模型

2024-07-05 47 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP自然语言处理_高级版，每接口累计50万次

NLP 自学习平台，3个模型定制额度 1个月

简介： 【7月更文挑战第5天】谷歌研究者提出新方法，通过自然语言提示训练视觉模型，减少人工标注需求。"建模合作者"框架结合大型语言模型与视觉语言模型，以对话理解视觉概念并自动生成标注，降低训练成本，提高效率。实验显示定义概念工作量减少90%，并在多种任务上超越现有技术。尽管有限制，但此框架为资源受限环境提供了更高效模型训练方案。[论文链接](https://arxiv.org/abs/2403.02626)

谷歌的研究人员最近提出了一种创新的方法，旨在通过自然语言文本提示来快速训练视觉模型，从而减少人工标注数据所需的时间和精力。这一突破性的研究成果被发表在了预印本服务器arXiv上，论文标题为《建模合作者：通过大型语言模型的工具使用，实现最小化人力的主观视觉分类》（Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use）。

在传统的机器学习方法中，训练一个视觉模型通常需要大量的人工标注数据。然而，对于一些主观的或细微的视觉概念，如表情识别、艺术作品评价等，收集和标注足够的数据可能需要数月甚至数年的时间。这不仅耗费了巨大的人力和物力，也限制了模型在实际应用中的可行性。

为了解决这个问题，谷歌的研究人员提出了一种名为"建模合作者"的框架。该框架利用了大型语言模型（LLM）和视觉语言模型的最新进展，通过自然语言交互来定义和细化视觉概念，并自动标注训练数据。

具体来说，研究人员首先使用LLM来与用户进行对话，以了解他们对视觉概念的理解和需求。然后，他们使用视觉语言模型来生成与该概念相关的图像描述，并根据这些描述来自动标注数据。最后，他们使用这些标注数据来训练一个轻量级的视觉分类模型，该模型可以在各种应用场景中部署，包括内容审核和野生动物保护等。

与传统的数据标注方法相比，"建模合作者"框架显著减少了所需的人力。根据研究人员的实验结果，使用该框架定义一个视觉概念所需的总工作量减少了一个数量级，从标注2000张图像减少到只需要标注100张图像，外加一些自然语言交互。

此外，"建模合作者"框架还具有其他优点。首先，它消除了对众包标注的需求，从而避免了数据质量参差不齐的问题。其次，它生成的视觉分类模型是轻量级的，可以在资源受限的场景中部署，如移动设备或边缘计算设备。最后，它在各种主观概念和公共图像分类数据集上都取得了出色的性能，超过了传统的敏捷建模方法以及最先进的零样本分类模型，如ALIGN、CLIP、CuPL和PaLI-X等。

然而，"建模合作者"框架也存在一些潜在的局限性。首先，它可能不适用于所有类型的视觉任务，特别是那些需要精确的几何或结构信息的任务。其次，它对用户的自然语言描述能力有一定的要求，如果用户无法准确描述他们的需求，可能会影响模型的性能。最后，虽然该框架减少了所需的人力，但仍然需要一些基本的数据标注工作，这可能限制了它在一些极端资源受限场景中的应用。

论文地址：https://arxiv.org/abs/2403.02626

谷歌推出创新方法：通过自然文本提示，快速训练视觉模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

谷歌推出创新方法：通过自然文本提示，快速训练视觉模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景