【一起从0开始学习人工智能0x02】字典特征抽取、文本特征抽取、中文文本特征抽取

简介: 【一起从0开始学习人工智能0x02】字典特征抽取、文本特征抽取、中文文本特征抽取

注:最后有面试挑战,看看自己掌握了吗

什么是特征工程?

算法 特征工程
影响最终效果--------数据和特征工程 决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

意义:直接影响机器学习效果

一种数据处理

用什么做?

pandas------数据清洗、数据处理

sklearn------对特征处理提供了强大的接口

1.特征提取

比如文章分类

机器学习算法-------统计方法------数学公式

文本类型—》数值

类型-------》数值

任意数据-----------》用于机器学习的数字特征

特征值化:

字典特征提取---------特征离散化

文本特征提取

图像特征提取---------深度学习

特征提取API

sklearn.featurn_extraction()

字典特征提取—向量化—类别–》one-hot编码

sklearn.featurn_extraction.DicVertorizer(sparse=True,...)

vector 向量、

matrix矩阵----二维数组

vector 一维数组

父类:转换器类

哑变量

哑变量定义

哑变量(DummyVariable),也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的变量量化,在线性回归分析中引入哑变量的目的是,可以考察定性因素对因变量的影响,

它是人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。对于有n个分类属性的自变量,通常需要选取1个分类作为参照,因此可以产生n-1个哑变量。

如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。

这种“量化”通常是通过引入“哑变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为哑变量(dummyvariables),记为D。

举一个例子,假设变量“职业”的取值分别为:工人、农民、学生、企业职员、其他,5种选项,我们可以增加4个哑变量来代替“职业”这个变量,分别为D1(1=工人/0=非工人)、D2(1=农民/0=非农民)、D3(1=学生/0=非学生)、D4(1=企业职员/0=非企业职员),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D5(1=其他/0=非其他)了。这个过程就是引入哑变量的过程,其实在结合分析(ConjointAnalysis)中,就是利用哑变量来分析各个属性的效用值的。

此时,我们通常会将原始的多分类变量转化为哑变量,每个哑变量只代表某两个级别或若干个级别间的差异,通过构建回归模型,每一个哑变量都能得出一个估计的回归系数,从而使得回归的结果更易于解释,更具有实际意义。

将类别转换成了one-hot编码

sparse-------稀疏矩阵--------------返回值-----省内存,提高加载速度------将非零值按位置表示出来

1.DictVectorizer()使用默认参数会返回一个稀疏矩阵

代码如下:

#1)实例化一个转换器类 2)调用fir_transform()方法
from sklearn.feature_extraction import  DictVectorizer#导包
#下面的data是数据
data=[{'city':'北京','tempreature':100},
      {'city':'上海','tempreature':60},
      {'city':'深圳','tempreature':30},]
#1实例化一个转换器类
transfer=DictVectorizer()
#2调用一fit_transform()方法
data_new=transfer.fit_transform(data)
print("看一下转换的结果data_new:\n",data_new)
print("看一下特征的名字:\n",transfer.get_feature_names())

运行结果如下:

看一下转换的结果data_new:

(0, 1) 1.0
(0, 3) 100.0
(1, 0) 1.0
(1, 3) 60.0
(2, 2) 1.0
(2, 3) 30.0

看一下特征的名字:

[‘city=上海’, ‘city=北京’, ‘city=深圳’, ‘tempreature’]

data_new 
 [[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]

one-hot-------直接1234会产生歧义,不公平

所以用onehot

应用场景

  1. pclass sex 数据集类别特征较多的情况

将数据集的特征转换为字典类型,

DictVectorizer转换

  1. 本身拿到的数据就是字典类型

文本特征提取

单词作为特征

句子、短语、单词、字母

单词最合适

特征:特征词

实例

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
def datasets_demo():
    #获取数据集
    iris = load_iris();
    print('鸢尾花数据集的描述:\n', iris.data, iris.data.shape)
    x_train, x_test, y_train, y_test=train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
    print("xunlianjitezhengzhi:\n:", x_train, x_train.shape)
    return None
def count_demo():
    data = ["The voice of one man is the voice of no one one",
            "The voice of one woman is the voice of  one"]
    # 1.实例化一个转换器类
    transfer = CountVectorizer()  # 注意CountVecotrizer()没有sparse参数,所以无法通过调节sparse参数来调节返回的结果
    # transfer = CountVectorizer(stop_words=['one']) # 注意CountVecotrizer()有一个stop_words参数用于去除不需要提取的词,且stop_words必须传一个列表对象
    # 2.调用实例对象的fit_transform()
    new_data = transfer.fit_transform(data)  # 会自动去除单个词
    # print("new_data:\n",new_data) # 返回稀疏矩阵(通常默认情况下都是返回稀疏矩阵)
    print("new_data:\n", new_data.toarray())  # 返回密集矩阵
    return None
if __name__ == "__main__":
    # datasets_demo()
    count_demo()
new_data:
 [[1 1 1 2 3 2 2 0]
 [1 0 0 2 2 2 2 1]]
Process finished with exit code 0

countVectorizer统计每个样本特征词出现的个数

中文无法用此方法划分,会把一句话当作一个词,可以手动分词解决

借助工具:jieba分词---------结巴

中文文本特征抽取—jieba结巴

import sklearn.feature_extraction.text as text
import jieba
transfer = text.CountVectorizer(stop_words=['vb'])
def count_chinese_demo2():
    data = ['发表回复这件事', '飞机里面飞一杯飞机专属奶茶', '没有什么比在飞机上喝一杯飞机专属的飞机奶茶要更好了']
    data_new = []
    # 中文文本分词
    for send in data:
        data_new.append(' '.join(list(jieba.cut(send))))
    print(data_new)
    # 文本特征提取
    data_final = transfer.fit_transform(data_new)
    print(data_final.toarray())
   # print(transfer.get_feature_names())
if __name__ == "__main__":
    count_chinese_demo2()
['发表 回复 这件 事', '飞机 里面 飞 一杯 飞机 专属 奶茶', '没有 什么 比 在 飞机 上 喝一杯 飞机 专属 的 飞机 奶茶 要 更好 了']
[[0 0 0 1 0 1 0 0 0 1 0 0]
 [1 1 0 0 0 0 1 0 0 0 1 2]
 [0 1 1 0 1 0 1 1 1 0 0 3]]
Process finished with exit code 0

🌸I could be bounded in a nutshell and count myself a king of infinite space.

特别鸣谢:木芯工作室 、Ivan from Russia


相关文章
|
10天前
|
人工智能 自然语言处理 搜索推荐
人工智能与教育:个性化学习的未来
【10月更文挑战第31天】在科技飞速发展的今天,人工智能(AI)正深刻改变教育领域,尤其是个性化学习的兴起。本文探讨了AI如何通过智能分析、个性化推荐、智能辅导和虚拟现实技术推动个性化学习,分析了其带来的机遇与挑战,并展望了未来的发展前景。
|
12天前
|
人工智能 搜索推荐 语音技术
人工智能与未来教育:重塑学习方式的双刃剑
在21世纪,人工智能(AI)技术正以前所未有的速度发展,深刻影响着社会的各个方面,其中包括教育领域。本文探讨了AI如何改变传统教育模式,提出其既带来积极影响也伴随着挑战的观点。通过分析具体案例和数据,文章旨在启发读者思考如何在保留人类教师不可替代价值的同时,有效利用AI技术优化教育体验。
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与未来教育:重塑学习体验
【10月更文挑战第20天】 在21世纪的今天,人工智能(AI)技术正以前所未有的速度改变着我们的生活、工作和学习方式。本文探讨了AI如何深刻影响未来教育的各个方面,从个性化学习路径的设计到智能辅导系统的开发,再到虚拟现实(VR)和增强现实(AR)技术在学习中的应用。通过分析这些变革,我们不仅能够预见一个更加高效、互动和包容的教育未来,而且还能理解这一过程中所面临的挑战和机遇。文章强调了持续创新的重要性,并呼吁教育工作者、技术开发者和政策制定者共同努力,以确保技术进步惠及每一个学习者。
40 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在教育中的创新应用:个性化学习的未来
【9月更文挑战第18天】人工智能在教育中的创新应用正在深刻改变着我们的教学方式和学习体验。从个性化学习方案的制定到智能化辅导与反馈,从多元化学习资源的推荐到自动化评分与智能考试系统,AI技术正在为教育领域带来前所未有的变革。面对这一变革,我们需要以开放和批判的态度拥抱它,共同探索AI时代教育的无限可能,为每一个学习者创造更美好的未来。
209 12
|
2月前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
45 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
2月前
|
机器学习/深度学习 数据采集 人工智能
探索人工智能在文本情感分析中的应用
【9月更文挑战第4天】本文旨在通过一个简化的模型,介绍如何利用AI技术对文本进行情感分析。我们将从基础理论出发,逐步深入到实际操作,展示如何训练一个简单的情感分析模型。文章不仅涵盖了理论知识,还提供了代码示例,帮助读者更好地理解并实践所学知识。
|
3月前
|
人工智能 自然语言处理 开发工具
探索移动应用开发之旅:从新手到专家人工智能在文本生成中的应用与挑战
【8月更文挑战第27天】本文旨在为初学者提供一条清晰的路径,通过了解移动操作系统的基础知识、选择合适的开发工具、学习编程语言以及掌握用户界面设计原则,逐步成长为移动应用开发的专家。我们将一起探讨如何将创意转化为现实中的移动应用,并确保这些应用在多样化的设备上均能良好运行。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】python之人工智能应用篇——文本生成技术
文本生成是指使用自然语言处理技术,基于给定的上下文或主题自动生成人类可读的文本。这种技术可以应用于各种领域,如自动写作、聊天机器人、新闻生成、广告文案创作等。
85 8
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】学习人工智能需要学习哪些课程,从入门到进阶到高级课程区分
基于人工智能的多学科特性和其广泛的应用领域,学习这一技术涉及从基础理论到实践应用的各个层面。入门阶段应重点掌握数学基础、编程语言学习以及数据结构和算法等。进阶阶段需要深入机器学习、深度学习以及自然语言处理等专题。高级课程则包括专业核心课程、认知心理学与神经科学基础以及计算机图形学等课程
110 1
|
3月前
|
机器学习/深度学习 人工智能 算法
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
119 0