开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

请教一下ModelScope,我使用的模型是:SiameseUniNLU零样本通用自然语言理解模型?

请教一下ModelScope,我使用的模型是:SiameseUniNLU零样本通用自然语言理解模型,model_id为:damo/nlp_structbert_siamese-uninlu_chinese-base,我想要得到的效果是,指定关键词进行命名实体提取,训练数据为html,html页面数据中还会有一些表格数据,如果为直接将html中的文本提出来而忽略了表格对应关系的话,导致结果不理想,请问一下,有没有什么方法针对html这种数据源生成训练数据集呢?

展开
收起
真的很搞笑 2023-10-19 12:30:04 135 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    根据提供的信息,您需要使用SiameseUniNLU零样本通用自然语言理解模型,针对HTML这种数据源生成训练数据集。针对HTML数据源生成训练数据集的方法可能有以下几种:

    1. 使用HTML解析库:您可以使用HTML解析库(如BeautifulSoup、PyQuery等)从HTML中提取文本,并将其转换为可以用于训练的数据格式。例如,您可以将HTML中的文本提取出来,并将其转换为一个包含文本和标签的数据集。标签可以用来表示文本的上下文信息。
    2. 使用深度学习模型:您可以使用深度学习模型(如Transformer、BERT等)从HTML中提取文本,并将其转换为可以用于训练的数据格式。例如,您可以使用Transformer模型从HTML中提取文本,并将其转换为一个包含文本和标签的数据集。标签可以用来表示文本的上下文信息。
    3. 使用规则匹配:您可以使用规则匹配的方法从HTML中提取文本,并将其转换为可以用于训练的数据格式。例如,您可以使用正则表达式从HTML中提取文本,并将其转换为一个包含文本和标签的数据集。标签可以用来表示文本的上下文信息。
    2023-10-19 14:00:45
    赞同 展开评论 打赏
  • 这种带有空间信息可能纯文本的抽取模型会有点难呢。 seqgpt可以试一下但不保证能解决问题,此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

    2023-10-19 12:35:49
    赞同 展开评论 打赏

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

相关电子书

更多
自然语言处理得十个发展趋势 立即下载
自然语言处理的十个发展趋势 立即下载
深度学习与自然语言处理 立即下载