iTAG 模板管理中的对话标注的数据结构应该如何定义?

iTAG 模板管理中的对话标注的数据结构应该如何定义?
c69a5ca3edde9188de63f2be11545866.png
这是我目前的数据结构,渲染失败了。
f952cc1f57dcd72fcbb358f7ab262f21.png
eba3c160e823f270c70f8f081ad4f95b.png

展开
收起
嘟嘟嘟嘟嘟嘟 2024-01-17 01:15:40 70 分享 版权
阿里云 AI 助理回答

在使用iTAG进行对话标注时,数据结构的定义需要严格遵循平台的要求。如果您的数据结构渲染失败,可能是由于字段或格式不符合规范。以下是基于知识库资料提供的详细解答和建议:


对话标注的数据结构定义

1. 输入数据格式

输入数据需要以manifest文件的形式提供,每行代表一个样本,且必须为JSON格式。以下是一个标准的对话标注输入数据示例:

{
  "data": {
    "instruction": "我想听音乐",
    "_itag_index": ""
  }
}
  • data字段:包含实际需要标注的对话内容。
    • instruction:表示用户输入的对话文本(可根据实际需求自定义字段名)。
    • _itag_index:用于标识数据的索引字段,通常为空字符串。

2. 标注结果输出格式

标注完成后,输出数据会附加标注信息,其结构如下:

{
  "data": {
    "instruction": "我想听音乐",
    "_itag_index": ""
  },
  "label-1787402095227383808": {
    "results": [
      {
        "questionId": "2",
        "data": "play_music()",
        "markTitle": "output",
        "type": "survey/value"
      }
    ]
  },
  "abandonFlag": 0,
  "abandonRemark": null
}
  • label-<ID>字段:存储标注结果,其中<ID>是系统生成的唯一标识。
    • results:标注的具体内容,通常包括以下字段:
    • questionId:标注问题的唯一标识。
    • data:标注的实际内容(如意图、实体等)。
    • markTitle:标注的类型或标题。
    • type:标注的类别(如survey/value)。
  • abandonFlag:是否废弃该样本(0表示未废弃,1表示废弃)。
  • abandonRemark:废弃原因(若未废弃则为null)。

常见问题及解决方法

1. 数据结构不匹配

如果渲染失败,可能是因为输入数据的字段与模板要求不一致。请检查以下内容: - 确保data字段中包含所有必需的字段(如instruction)。 - 确保字段名与模板配置中的字段名完全一致。

2. 模板配置错误

在创建标注任务时,模板的选择和配置至关重要。请参考以下步骤: 1. 在智能标注iTAG页面创建模板,选择自定义模板 > 基础模板。 2. 配置模板时,确保输入字段(如instruction)与数据文件中的字段名一致。 3. 如果使用预置模板,请确认模板的应用场景是否符合对话标注需求。

3. 数据格式问题

  • 确保每行数据为独立的JSON对象,且文件为.manifest格式。
  • 避免多余的逗号或非法字符。

操作步骤建议

  1. 准备数据文件

    • 按照上述输入数据格式,准备manifest文件。
    • 示例文件内容如下:
      {"data":{"instruction":"我想听音乐","_itag_index":""}}
      {"data":{"instruction":"太吵了,把声音开小一点","_itag_index":""}}
      
  2. 创建标注任务

    • 登录PAI控制台,进入**智能标注(iTAG)**模块。
    • 创建数据集并上传manifest文件。
    • 选择合适的模板(如对话标注模板),并配置字段映射。
  3. 处理标注任务

    • 分发任务给标注员,完成标注后导出结果。
    • 导出格式支持.jsonl.manifest等,便于后续模型训练。

重要提醒

  • 字段一致性:输入数据的字段名必须与模板配置中的字段名完全一致,否则会导致渲染失败。
  • 模板选择:如果预置模板无法满足需求,请使用自定义模板功能。
  • 数据质量:标注任务完成后,建议进行质检和验收,以确保数据质量。

如果您仍有疑问或需要进一步帮助,请通过钉钉群(群号:21930006619)联系技术支持团队。您可以复制页面截图提供更多信息,我可以进一步帮您分析问题原因。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答