自然语言处理 NLP(1)

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 自然语言处理 NLP(1)

NLP

自然语言:指一种随着社会发展而自然演化的语言,即人们日常交流所使用的语言;


自然语言处理:通过技术手段,使用计算机对自然语言进行各种操作的一个学科;


NLP研究的内容

词意消歧;

指代理解;

自动生成语言;

机器翻译;

人机对话系统;

文本含义识别;

NLP处理

语料读入

网络

本地

分词


image.png

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018-9-28 22:21
# @Author  : Manu
# @Site    : 
# @File    : python_base.py
# @Software: PyCharm
import urllib
from nltk import word_tokenize
from bs4 import BeautifulSoup
# 在线文档下载
url = 'http://www.gutenberg.org/files/2554/2554-0.txt'
res = urllib.request.urlopen(url)
raw = res.read().decode('utf8')
print('length', len(raw))
print('type', type(raw))
print(raw[:100])
# 分词
tokens = word_tokenize(raw)
print(tokens[:50])
print('length:' + str(len(tokens)))
print('type:', type(tokens))
# 创建文本
text = nltk.Text(tokens)
print('type', type(text))
print('length', len(text))
print(text)

基于此单位的文本分析

  • 正则表达式
    image.png分割
  • 断句
  • 分词
  • 规范化输出

中文分词及相应算法

  • 基于字典、词库匹配;
  • 正向最大匹配;
  • 逆向最大匹配;
  • 双向最大匹配;
  • 设立切分表执法;
  • 最佳匹配;
  • 基于词频度统计;
  • N-gram模型;
  • 隐马尔科夫模型;
  • 基于字标注的中文分词方法;
  • 基于知识理解;

分词方法比较

image.png

结巴分词

  • 安装
    在控制台使用pip install jieba即可安装;image.png功能

分词;

jieba.cut、jieba.cut_for_search;

添加自定义词典;

jieba.load_userdict(file_name)、add_word(word, freq=None, tag=None)、jieba.del_word(word)、jieba.suggest_freq(segmen, tune=True);

关键词提取;

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=());

jieba.analyse.set_idf_path(file_name);

jieba.analuse.set_stop_words(file_name);

词性标注;

jieba.tokenize();

jieba.posseg.cut();

并行分词;

词汇搜索;



目录
相关文章
|
17天前
|
自然语言处理 算法 Python
自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
【10月更文挑战第9天】自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
37 4
|
21天前
|
机器学习/深度学习 存储 自然语言处理
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(上)
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(上)
|
5天前
|
机器学习/深度学习 存储 人工智能
大数据中自然语言处理 (NLP)
【10月更文挑战第19天】
88 60
|
3天前
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
利用Python进行自然语言处理(NLP)
16 1
|
14天前
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
利用Python进行自然语言处理(NLP)
25 3
|
21天前
|
机器学习/深度学习 存储 自然语言处理
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(下)
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(下)
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(下)
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
详谈什么是自然语言处理(NLP),特点以及使用场景场景(一)
详谈什么是自然语言处理(NLP),特点以及使用场景场景(一)
56 0
|
24天前
|
人工智能 自然语言处理
【NLP自然语言处理】NLP中的常用预训练AI模型
【NLP自然语言处理】NLP中的常用预训练AI模型
|
24天前
|
机器学习/深度学习 自然语言处理 异构计算
【NLP自然语言处理】初识深度学习模型Transformer
【NLP自然语言处理】初识深度学习模型Transformer
|
24天前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器

热门文章

最新文章