请教一下ModelScope，我使用的模型是：SiameseUniNLU零样本通用自然语言理解模型？

请教一下ModelScope，我使用的模型是：SiameseUniNLU零样本通用自然语言理解模型，model_id为：damo/nlp_structbert_siamese-uninlu_chinese-base，我想要得到的效果是，指定关键词进行命名实体提取，训练数据为html，html页面数据中还会有一些表格数据，如果为直接将html中的文本提出来而忽略了表格对应关系的话，导致结果不理想，请问一下，有没有什么方法针对html这种数据源生成训练数据集呢？

展开

收起

真的很搞笑 2023-10-19 12:30:04 273 版权

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
根据提供的信息，您需要使用SiameseUniNLU零样本通用自然语言理解模型，针对HTML这种数据源生成训练数据集。针对HTML数据源生成训练数据集的方法可能有以下几种：
1. 使用HTML解析库：您可以使用HTML解析库（如BeautifulSoup、PyQuery等）从HTML中提取文本，并将其转换为可以用于训练的数据格式。例如，您可以将HTML中的文本提取出来，并将其转换为一个包含文本和标签的数据集。标签可以用来表示文本的上下文信息。
2. 使用深度学习模型：您可以使用深度学习模型（如Transformer、BERT等）从HTML中提取文本，并将其转换为可以用于训练的数据格式。例如，您可以使用Transformer模型从HTML中提取文本，并将其转换为一个包含文本和标签的数据集。标签可以用来表示文本的上下文信息。
3. 使用规则匹配：您可以使用规则匹配的方法从HTML中提取文本，并将其转换为可以用于训练的数据格式。例如，您可以使用正则表达式从HTML中提取文本，并将其转换为一个包含文本和标签的数据集。标签可以用来表示文本的上下文信息。
2023-10-19 14:00:45

赞同展开评论
芯在这

这种带有空间信息可能纯文本的抽取模型会有点难呢。 seqgpt可以试一下但不保证能解决问题，此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

2023-10-19 12:35:49

赞同展开评论

请教一下ModelScope，我使用的模型是：SiameseUniNLU零样本通用自然语言理解模型？

计算机视觉

相关文章

热门讨论

热门文章