开发者社区> 问答> 正文

我现在NLP有大量的商品的价签,里面包含很多的条目,比如“黄鹤楼;单价:100元;产地:湖北;质检员

我现在NLP有大量的商品的价签,里面包含很多的条目,比如“黄鹤楼;单价:100元;产地:湖北;质检员:张三”。我的需求:需要将商品的标签中的每个文本、词都划分到具体的类别中,并且最好能够拆分开键值对关系(如果有的话,键是:单价;值是:100元。类似这样。而“黄鹤楼”或者“品名:美仔牛仔裤”等都划分到“品名”这个实体中)。 我有数据,大概一两千;目前没有标注。 我这个场景,有什么api可以使用或者试用吗 ?谢谢 这个用文本分类还是命名实体识别、关系抽取 比较合适? ner的话,是否会有残留信息呢?比如说抽取了这些实体之后,是否会有剩余的文本?我的场景是要求每个文本都有其分类。

我的场景是这样,每个文本实体其实都可以通过规则抽取出来。关键是给它们分类;

展开
收起
真的很搞笑 2023-05-03 15:10:44 100 0
2 条回答
写回答
取消 提交回答
  • 随心分享,欢迎友善交流讨论:)

    针对您的需求,建议您使用命名实体识别(Named Entity Recognition,NER)技术来划分每个文本、词到具体的实体类别中,例如将“黄鹤楼”划分到“品名”实体中,“单价:100元”划分到“单价”实体中等。同时,您也可以使用关系抽取技术,将具有键值对关系的词语提取出来,并将其归为相应的实体类别中。

    关于API,您可以考虑使用Python中的自然语言处理工具包,例如spaCy和NLTK,这些工具包可以提供NER和关系抽取功能。此外,您也可以使用基于深度学习的NLP API,例如Google Cloud Natural Language API或IBM Watson Natural Language Understanding等,它们也提供包括NER在内的多种NLP功能。

    具体实现过程中,您需要先定义好实体类别和对应的键值对关系,并根据这些规则对文本进行抽取和分类。对于没有标注数据的情况,您可以考虑使用无监督学习或半监督学习技术进行模型训练和分类。同时,针对残留信息的问题,您可以在分类时对未被分类的文本进行处理,例如将其归为通用的“其他”类别中。

    2023-05-05 14:16:21
    赞同 展开评论 打赏
  • 建议您用命名实体识别先试一下哈 要么就用文本实体抽取,实体标签字段可以自定义 https://help.aliyun.com/document_detail/162017.html?spm=a2c4g.144930.0.0.65d13e06LvtUUu,此回答整理自钉群“阿里云NLP基础服务2.0 - 用户答疑群”

    2023-05-03 20:00:51
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
自然语言处理得十个发展趋势 立即下载
自然语言处理的十个发展趋势 立即下载
深度学习与自然语言处理 立即下载