正向生成、反向生成、正反向生成:LLM生成标注数据的几种方式

简介: LLM生成NLP标注数据有多种方式

自然语言处理(NLP)中的低资源任务(例如医药文本的事件检测、关系三元组抽取等)往往缺乏大量的已标注数据,从而难以训练或微调专门的模型。在没有大量已标注数据的情况下,仅基于通用的预训练模型,采用Zero-Shot或者Few-Shot推理来完成这些任务,完成任务的效果目前来说往往较差[1][2]。

获得大量标注数据的一条途径是人工标注,但是人工标注的成本一般较高。另一条途径是使用大语言模型(LLM)来生成标注数据。根据近期发布的一篇论文[1],使用LLM生成标注数据有以下几种方式:正向生成(Forward Generation)、反向生成(Inverse Generation)、以及正反向生成(Forward-Inverse Generation,简称FIG)。

正向生成

正向生成(Forward Generation)比较容易理解。假设存在未标注的专门领域文本数据。正向生成就是针对未标注的文本数据,让LLM生成标注结果(或称“标签”)。

Figure1-1.jpg

正向生成可以用X→Y'来表示,其中,X表示原始的文本数据,Y'表示LLM生成的标签,'表示噪音;{(X,Y')}表示{(待标注文本,标签)}数据集。

正向生成的缺点是:所生成的标签的质量取决于LLM的推理能力;由于推理、尤其较复杂的推理目前还不是一般LLM的强项,所生成标签的准确性不高、且不容易控制。

反向生成

反向生成(Inverse Generation)根据已有的、或者已生成的标签,让LLM生成文本数据。

以一个信息抽取任务为例[3],反向生成简单来说首先根据种子数据生成具有一定结构的抽取信息,然后提示LLM生成含有抽取信息的文本。

Figure1-2.jpg

反向生成可以用Y'→X'来表示,其中,Y'表示已有的、或者已生成的标签,X'表示LLM生成的文本,'表示噪音;{(X',Y')}表示{(待标注文本,标签)}数据集。

反向生成可以发挥LLM在文本生成方面的长处。同时,反向生成也存在以下的缺点:

  • LLM所生成的文本内容分布较广,较难限制在一个专门领域之内,即使在提示语中加入限制领域的要求,问题也得不到较好的解决[1];
  • LLM所生成的文本中可能含有属于其它标签的内容,从而使得标注不完整,影响生成文本的准确性以及已有的、或者已生成的标签的准确性。

正反向生成

正反向生成(FIG)是一种综合了正向生成和反向生成的混合式方法,目的是提高LLM所生成的标注数据的质量。在一篇以事件检测(Event Detection)标注数据的生成为背景的论文[1]中,对于正反向生成的描述大致是这样的:

  1. 假设存在未标注的专门领域文本数据。首先,针对未标注文本数据,通过正向生成来提取事件类型和触发词,并将事件类型和经过筛选的触发词组织成一定的结构;
  2. 根据上一步产生的信息、以及任务指示和事件定义,通过反向生成来生成文本数据X';
  3. 针对上一步产生的文本数据X',再次通过正向生成标注出全部标签,以确保所有应该被标注的信息均被标注。

Figure1-3.jpg

上述论文[1]的实验结果表明,与正向生成相比,正反向生成所生成的标签更准确;与反向生成相比,正反向生成所生成的文本可以更好地限制在一个专门领域内。

在分别使用:

  • 正向生成、
  • 反向生成、以及
  • 正反向生成

生成标注数据,并训练下游的事件检测(Event Detection)模型后,正反向生成所生成的标注数据,其训练出的下游模型在测试中的表现最优。

测试的结果还表明,正反向生成所生成的标注数据,其训练出的模型明显优于ChatGPT的直接推理,但是落后于人工标注数据所训练出的模型。

不过对于低资源任务来说,由于缺乏人工标注数据,以上最后一项比较的实际意义也许并不大。

参考文献

[1] FIG: Forward-Inverse Generation for Low-Resource Domain-specific Event Detection.

https://arxiv.org/abs/2502.17394

[2] TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction.

https://arxiv.org/abs/2311.09562

[3] STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models.

https://arxiv.org/abs/2305.15090

封面图:CHUTTERSNAP、Unsplash

算AI
+关注
目录
打赏
0
0
0
0
19
分享
相关文章
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
LLM2CLIP是一种创新方法,旨在通过利用大型语言模型(LLM)的能力来改进CLIP多模态模型。该方法通过对比学习微调LLM,增强其文本判别性,并将其作为CLIP的强教师,从而显著提升CLIP处理长复杂文本和跨语言任务的能力。实验表明,LLM2CLIP在多个基准测试中优于现有模型,特别是在长文本检索任务上性能提升了16.5%。尽管如此,该方法在实际应用中的鲁棒性和资源需求仍需进一步验证。论文链接:https://arxiv.org/pdf/2411.04997。
115 70
LLM2LLM:LLM2LLM:用 LLM 来增强 LLM !通过教师模型合成数据,增强学生模型的训练数据集
LLM2LLM 是一种创新的迭代数据增强技术,通过教师模型生成合成数据,显著提升大语言模型在数据稀缺任务中的性能。
267 90
LLM2LLM:LLM2LLM:用 LLM 来增强 LLM !通过教师模型合成数据,增强学生模型的训练数据集
|
1月前
|
RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你LLM+外部数据的正确使用姿势
在人工智能领域,大型语言模型(LLM)结合外部数据展现出强大能力,尤其检索增强生成(RAG)和微调技术备受关注。然而,不同专业领域的有效部署仍面临挑战,如准确检索数据、理解用户意图等。综述文章《Retrieval Augmented Generation (RAG) and Beyond》提出RAG任务分类方法,将用户查询分为四个级别,并探讨了外部数据集成的三种形式:上下文、小型模型和微调。文章提供了宝贵见解和实用指导,帮助更好地利用LLM潜力解决实际问题。论文链接:https://arxiv.org/abs/2409.14924
88 6
RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降
随着大型语言模型(LLM)在自然语言处理领域的广泛应用,检索增强生成(RAG)技术因能引入新知识和减少幻觉而受到关注。然而,RAG对LLM推理能力的实际提升效果仍存争议。中国人民大学的一项研究表明,RAG虽能辅助LLM推理,但在处理含噪信息和深度推理时面临挑战。为此,研究团队提出了DPrompt tuning方法,旨在解决噪声问题并提升RAG性能。
105 12
大模型强崩溃!Meta新作:合成数据有剧毒,1%即成LLM杀手
在人工智能领域,大型语言模型(LLMs)的快速发展令人瞩目,但递归生成数据可能导致“模型崩溃”。Meta的研究揭示,模型在训练过程中会逐渐遗忘低概率事件,导致数据分布偏差。即使少量合成数据(如1%)也会显著影响模型性能,最终导致崩溃。研究强调保留原始数据的重要性,并提出社区合作和技术手段来区分合成数据和真实数据。论文地址:https://www.nature.com/articles/s41586-024-07566-y
147 2
完全使用自生成数据实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%
【10月更文挑战第27天】Google DeepMind 研究人员开发了 SCoRe 方法,利用多回合在线强化学习显著提升大型语言模型(LLM)的自我纠正能力。该方法分为两个阶段:第一阶段通过强化学习减少行为崩溃,第二阶段使用奖励塑造优化两次尝试的性能。实验结果显示,SCoRe 在数学和编程任务上分别提升了 4.4% 和 12.2% 的自我纠正性能。
113 3
LLM对齐数据全自动合成!UW华人博士生提出Magpie方法,Macbook Air即可运行
【8月更文挑战第11天】在AI领域,大型语言模型(LLM)的行为对齐一直是个挑战。华盛顿大学研究人员提出名为Magpie的新方法,能自动高效生成高质量指令数据,减少人工干预,提升LLM的对齐效果。通过输入模板,Magpie利用已对齐LLM生成能力自动生成指令数据,仅需少量GPU资源即可创建大规模数据集。实验显示,使用Magpie数据集微调的模型性能媲美传统监督方法。尽管如此,Magpie仍需进一步优化以生成特定领域指令并确保数据安全性。[论文](https://arxiv.org/abs/2406.08464)
275 60
|
6月前
|
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
131 2
|
5月前
|
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
166 0
CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升
【8月更文挑战第24天】近期研究提出SELF-GUIDE,一种创新方法,旨在通过大型语言模型(LLMs)自动生成特定任务数据并用于自我微调,以克服其在特定任务上的性能局限。SELF-GUIDE分为三个阶段:数据合成、模型微调及性能评估。通过向目标LLM提供适当提示生成高质量合成数据,并用于微调以提升特定任务表现。实验证明,该方法在Natural Instructions V2等多个基准测试中显著提升了分类与生成任务性能。SELF-GUIDE不仅有效提高性能,还具备高数据效率,减少对外部数据依赖。然而,生成数据质量受限于LLM能力,且并非适用于所有任务。
117 4

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等