1_文本处理与词嵌入

简介: 1_文本处理与词嵌入

一、前提


The IMDB Movie Review Dataset


50K movie reviews (text).

Each review is labeled with either "positive"or “negative”.

It is a binary classification problem.(

分类问题)

25K for training and 25K for test.

http://ai.stanford.edu/~amaas/data/sentiment/


http://s3.amazonaws.com/text-datasets/acllmdb.zip


二、Text to Sequence(文本处理)


文本处理的好坏直接影响机器学习的准确率


2.1 Tokenization(分词)


把文本分隔为单词。

一个token(符号)就是一个单词或者字符。


94c50badc38388e2532dabaa7fa9b26f.png


2.2 Build Dictionary(建立一个字典)


可以首先统计词频,去掉低频词,然后让每一个单词对应每一个正整数,有了字典,就可以把每一个单词映射为每一个整数,这样一句话就可以用正整数的列表表示。而这个列表被称为sequences(序列)


2.3 One-Hot Encoding


如果有必要,可以进一步做one-hot encoding,把单词变为one-hot向量。


2.4 Align Sequences(对齐序列)


训练数据没有对齐,每个序列都有不同的长度,在做机器学习的时候,我们把数据存储在矩阵或者张量中,这就需要把序列对齐,每条序列都有相同的长度。


解决方法如下:


62c4492c89537b36dd70ea23f2cb94c3.png


三、Word Embedding: Word to Vector(词嵌入:把单词表示成低维向量)


文本处理已经完成,每一个词都用一个正整数来表示。


3.1 One-Hot Encoding(one-hot 编码)


用one-hot向量来表示一个单词。


fa8084b01a5b44cbd3aea96ce6f9fbf3.png


3.2 Word Embedding(词嵌入)


Embedding往往表示有降维的意思。


d表示词向量的维度,由用户自己决定;

v是字典里单词的数量;

矩阵的乘法结果计作向量Xi,其是一个词向量,维度为d;

P转置矩阵的每一列都是一个词向量。

参数矩阵p是从训练数据中学习到的,所以学习到的词向量会带有感情色彩。


6a663cd4730d1877d0b50e29b20f9987.png

906da6ac861b15f774e86cf74ae6a0a4.png


四、Logistic Regression for Binary Classification(用逻辑回归做二分类)


判断电影评论是正面还是负面的。


a933fd876ccdad22a51a56d4cda5a0b2.png

f0425fbd9b0cefd193a39cf4dc31481d.png

680b4d5817943d254ef5be4b2da2d794.png


4.1 Performance on the training and validation sets(训练和验证集的表现)


779b0ad98f91c6c9297943f671b77234.png


4.2 Performance on test set(测试集表现)


af19cce418a91a3927db24b057d57620.png


4.3 Logistic Regression for Sentiment Analysis

a34d81e7c30f8ed6eea4d0320ea0f154.png

目录
相关文章
|
11月前
|
数据挖掘 BI
解密辛普森悖论:如何在数据分析中保持清醒头脑
解密辛普森悖论:如何在数据分析中保持清醒头脑
589 0
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
235 0
|
编解码 缓存 监控
GB28181设备接入侧如何支持H.265?
GB28181设备接入侧如何支持H.265?
307 0
|
机器学习/深度学习 存储 数据采集
使用深度神经网络对肿瘤图像进行分类
使用 Inception-v3 深度神经网络对可能不适合内存的多分辨率全玻片图像 (WSI) 进行分类。 用于肿瘤分类的深度学习方法依赖于数字病理学,其中整个组织切片被成像和数字化。生成的 WSI 具有高分辨率,大约为 200,000 x 100,000 像素。WSI 通常以多分辨率格式存储,以促进图像的高效显示、导航和处理。
277 0
|
机器学习/深度学习 算法 数据挖掘
机器学习篇—大厂笔试题(一)
机器学习篇—大厂笔试题
1637 0
机器学习篇—大厂笔试题(一)
|
机器学习/深度学习 数据采集 并行计算
机器学习篇—大厂笔试题(二)
机器学习篇—大厂笔试题
2528 0
机器学习篇—大厂笔试题(二)
|
机器学习/深度学习 存储 算法
深度学习—大厂笔试题(上)
深度学习—大厂笔试题
1751 0
|
机器学习/深度学习 数据采集 人工智能
机器学习篇—大厂笔试题(三)
机器学习篇—大厂笔试题
3908 0
|
前端开发 JavaScript
uniapp使用scroll-view与swiper组件实现tab滑动切换页面需要注意的问题
ab栏可以滑动,切换页面跟随tab栏同步滑动。这里需要注意的是使用swiper组件时,它会有一个默认的高度,你必须动态的获取数据列表的高度覆盖原来的默认高度。

热门文章

最新文章