文档备案控制台

开发者社区问答正文

NLP的Python框架？

我正在一个项目中，我必须从一组文章中提取以下信息（这些文章可能涉及任何内容）：

人们可以找到在场人员的名字，例如“巴拉克·奥巴马”

文章的主题或相关标签，例如“议会”，“世界能源”

公司/组织我应该能够获得提及的任何公司或组织的名称，例如“ Apple”或“ Google”

在Python中是否可以使用此类NLP框架/库来帮助我完成此任务？

展开

收起

祖安文状元 2020-02-21 15:55:31 622 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

祖安文状元

@sel和@ 3kt确实是一个很好的答案。OP，您正在寻找Entity Extraction，通常称为具名实体识别。有许多API可以执行此操作。但是您需要问自己的第一个问题是

我的数据的结构是什么？更确切地说，

我的句子英语水平好吗？

从某种意义上讲，您正在使用的数据在语法上是否一贯正确，大写且结构合理。在提取实体时，这些因素至关重要。我处理过的数据是推文。绝对的噩梦！我对各种API在实体提取方面的性能进行了详细的分析，我将与您分享发现的内容。

这是执行神话般的实体提取的API，

NLTK有一个方便的参考书籍，其深入的谈到了与多个实例的功能。NLTK在嘈杂的数据（推文）上表现不佳，因为它已经在结构化数据上进行了训练。NLTK是大写单词（例如DUCK，动词，CHAIR）的绝对垃圾。而且，与其他API相比，它的精度稍差一些。它非常适合新闻文章和学术报告中的结构化数据或精选数据。对于初学者来说，这是一个很好的学习工具。

Alchemy更易于实现，并且在命名实体的分类中表现出色，与我提到的API相比，它具有很高的精度，但是它具有一定的交易成本。一天只能执行1000个查询！它标识推特句柄，并且可以处理笨拙的大写字母。

恕我直言，sPacy API可能是最好的。它是开源的。它的性能优于Alchemy API，但不够精确。几乎对炼金术也进行实体分类。

现在，您知道哪个API应该是一个简单的问题，因为您知道每个API可能会根据所拥有的数据表现如何。

额外 -POLYGLOT是另一个API。

这是一篇在NLTK中执行实体提取的博客文章。

艾伦·里特（Alan Ritter）撰写的精美论文可能会笼罩您的头顶。但这是专业级别的实体提取（尤其是在嘈杂数据中）的标准。您可以不时参考它，以了解复杂的概念，例如LDA或SVM以大写形式。

2020-02-21 17:32:06

赞同展开评论

问答分类：

自然语言处理 Python 自然语言处理

问答标签：

Python框架 Python NLP 自然语言处理框架自然语言处理python

问答地址：

开发者社区 > 人工智能 > 问答

相关问答

能否写一个调用NLP自学习平台api的python程序？

82

0

0

有没有 python 调用自然语言处理sdk 中的文本纠错功能的代码示例

266

5

0

python3.8.5安装modelscope[cv, nlp]时这个lap依赖安装报错怎么办？

469

1

0

我想咨询函数计算搭建相关的问题。采用的是PYTHON3.7 的 flask框架。我逐步把依赖库添加

855

1

0

Python的基础知识框架有哪些内容？

569

1

0

搭一个python(基于sanic）框架，是不是也要使用custom runtime

792

1

0

EasyTransfer框架不同场景和业务数据下的NLP应用有哪些实例？

505

1

0

业界首个面向NLP场景的深度迁移学习框架是哪个？

283

1

0

python中Pytest框架中的@pytest.fixture函数的scope可能的取值有哪些？

501

1

0

python中Pytest框架中的参数化是什么意思？

675

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

现在还能免费部署模型至api上了吗？

通义灵码提示格式问题

modelscope 部署模型资源好久了，一直没响应，这应该怎么删除重新部署呢？

API inference endpoint都变成待机态了

modelscope 模型python调用

相关文章

阿里云万小智AI建站产品介绍：使用场景、产品优势、收费价格参考

小巧而强大：轻量级语言模型如何改变游戏规则

超越规则：AI模型如何学会“思考”？

超越文本：多模态大模型如何重塑AI感知能力

django上传文件注意事项

还有其他疑问?