万能的0和1 之 字典特征抽取

简介: 机器是无法识别自然语言的,机器只能识别0和1,经典的案例就是字典特征抽取0表示不存在1表示存在以国漫人物信息,做示例原始数据原始数据字典特征抽取后, 终端打印结果特征抽取后的数据关于one-hot...

机器是无法识别自然语言的,机器只能识别0和1,经典的案例就是字典特征抽取

  • 0表示不存在
  • 1表示存在

以国漫人物信息,做示例

原始数据

原始数据

字典特征抽取后, 终端打印结果

特征抽取后的数据

关于one-hot编码

机器会将所有样本中, 出现过的特征统统列举出来,然后每个样本挨个比对所有特征,如果存在对应的特征则取1, 不存在则取0

# 字典特征抽取
from sklearn.feature_extraction import DictVectorizer

# 字典特征抽取
def dic_f_extra():
    # 人物信息
    shao_jin = [{"name":"袁小棠", "age": 19, "gender":"男"},
              {"name":"小亭子", "age": 19, "gender":"女"},
              {"name":"白衣段云", "age": 22, "gender": "男"},
              {"name":"阿九", "age": 18, "gender":"女"}]

    # 实例化字典特征抽取对象(为了便于观察,不使用sparse格式显示)
    dict_v = DictVectorizer(sparse=False)

    # 填充数值并转换
    data = dict_v.fit_transform(shao_jin)

    # 打印抽取后的,字典特征名称信息
    print(dict_v.get_feature_names())

    print("\n","\n","\n")
    # 打印字典特征数据信息
    print(data)

if __name__ == '__main__':
    dic_f_extra()
目录
相关文章
|
10天前
编译原理——构造预测分析表(判断某字符串是否是文法G(E)的句子)
编译原理——构造预测分析表(判断某字符串是否是文法G(E)的句子)
11 0
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
万能词向量为什么火?
词向量(Word Vectors),也称为词嵌入(Word Embeddings),是自然语言处理(NLP)中一种表示词语语义信息的技术。
万能词向量为什么火?
|
11天前
|
NoSQL 算法 Redis
【Redi设计与实现】第四章:字典
【Redi设计与实现】第四章:字典
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
【一起从0开始学习人工智能0x02】字典特征抽取、文本特征抽取、中文文本特征抽取
【一起从0开始学习人工智能0x02】字典特征抽取、文本特征抽取、中文文本特征抽取
44 1
|
11天前
|
机器学习/深度学习 运维 算法
决策树算法的用途
决策树算法的用途
|
5月前
|
人工智能
实例解释在lingo中使用集合模型
实例解释在lingo中使用集合模型
|
机器人 编译器 Python
Python编程基础:实验3——字典及集合的使用
Python编程基础:实验3——字典及集合的相关知识点题目练习
230 0
Python编程基础:实验3——字典及集合的使用
|
存储 算法 C++
【基础算法训练】—— 字符串
【基础算法训练】—— 字符串
146 0
【基础算法训练】—— 字符串
|
索引 Python
Python语法之集合
集合是无序元素的集合,集合中的元素不可重复,并且创建完成后,其中的元素不可更改。但是整个集合是可以更改的,我们可以向其增加元素,也可以从中删除元素。也就是说,我们无法修改集合中的元素,但是我们可以对整个集合进行添加或者是删除等更改的操作。集合的创建非常简单,只需要将以逗号分隔的元素放在花括号 {} 中,{元素1,元素2,元素3,...,元素n}。
125 0
|
C语言
【C 语言】字符串模型 ( 键值对模型 )
【C 语言】字符串模型 ( 键值对模型 )
146 0
【C 语言】字符串模型 ( 键值对模型 )