谷歌的研究人员最近提出了一种创新的方法,旨在通过自然语言文本提示来快速训练视觉模型,从而减少人工标注数据所需的时间和精力。这一突破性的研究成果被发表在了预印本服务器arXiv上,论文标题为《建模合作者:通过大型语言模型的工具使用,实现最小化人力的主观视觉分类》(Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use)。
在传统的机器学习方法中,训练一个视觉模型通常需要大量的人工标注数据。然而,对于一些主观的或细微的视觉概念,如表情识别、艺术作品评价等,收集和标注足够的数据可能需要数月甚至数年的时间。这不仅耗费了巨大的人力和物力,也限制了模型在实际应用中的可行性。
为了解决这个问题,谷歌的研究人员提出了一种名为"建模合作者"的框架。该框架利用了大型语言模型(LLM)和视觉语言模型的最新进展,通过自然语言交互来定义和细化视觉概念,并自动标注训练数据。
具体来说,研究人员首先使用LLM来与用户进行对话,以了解他们对视觉概念的理解和需求。然后,他们使用视觉语言模型来生成与该概念相关的图像描述,并根据这些描述来自动标注数据。最后,他们使用这些标注数据来训练一个轻量级的视觉分类模型,该模型可以在各种应用场景中部署,包括内容审核和野生动物保护等。
与传统的数据标注方法相比,"建模合作者"框架显著减少了所需的人力。根据研究人员的实验结果,使用该框架定义一个视觉概念所需的总工作量减少了一个数量级,从标注2000张图像减少到只需要标注100张图像,外加一些自然语言交互。
此外,"建模合作者"框架还具有其他优点。首先,它消除了对众包标注的需求,从而避免了数据质量参差不齐的问题。其次,它生成的视觉分类模型是轻量级的,可以在资源受限的场景中部署,如移动设备或边缘计算设备。最后,它在各种主观概念和公共图像分类数据集上都取得了出色的性能,超过了传统的敏捷建模方法以及最先进的零样本分类模型,如ALIGN、CLIP、CuPL和PaLI-X等。
然而,"建模合作者"框架也存在一些潜在的局限性。首先,它可能不适用于所有类型的视觉任务,特别是那些需要精确的几何或结构信息的任务。其次,它对用户的自然语言描述能力有一定的要求,如果用户无法准确描述他们的需求,可能会影响模型的性能。最后,虽然该框架减少了所需的人力,但仍然需要一些基本的数据标注工作,这可能限制了它在一些极端资源受限场景中的应用。