请教一下ModelScope,我使用的模型是:SiameseUniNLU零样本通用自然语言理解模型,model_id为:damo/nlp_structbert_siamese-uninlu_chinese-base,我想要得到的效果是,指定关键词进行命名实体提取,训练数据为html,html页面数据中还会有一些表格数据,如果为直接将html中的文本提出来而忽略了表格对应关系的话,导致结果不理想,请问一下,有没有什么方法针对html这种数据源生成训练数据集呢?
根据提供的信息,您需要使用SiameseUniNLU零样本通用自然语言理解模型,针对HTML这种数据源生成训练数据集。针对HTML数据源生成训练数据集的方法可能有以下几种:
这种带有空间信息可能纯文本的抽取模型会有点难呢。 seqgpt可以试一下但不保证能解决问题,此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”