向量是一种表示符合线性可加性的数值的数据结构。它可以用于表示词汇、文本或者图片等数据。
计数向量和词频向量是在自然语言处理(NLP)中常用的文本向量化表示方法:
计数向量(Count Vector):记录每个单词在文本中的出现频次
例如:
['the', 3]
['cat', 2]
['sat', 1]
它使用单词的计数作为特征,忽略了单词重要性。
词频向量(TF Vector):记录每个单词在文本中的频率
例如:
['the', 0.3]
['cat', 0.2]
['sat', 0.1]
向量的值是该单词出现的频次除以文本总单词数。
这两种向量表示都可以应用在:
文本分类:将向量作为模型输入,训练分类模型
文本聚类:将文本表示成向量,然后进行聚类分析
信息 Retrieval:计算向量之间的相似度
向量的主要优点是:
具有线性特征,计算方便
数据占用内存小,便于处理大量文本
允许使用向量操作来发现文本间的关系
总的来说,向量通过记录单词出现的次数或频率,将文本转化为固定长度的数值表示。
它可以应用于自然语言处理的多种任务中。
以下是学习向量知识和应用的一些推荐资料:
书籍:
《Hands-On Machine Learning with Scikit-Learn and TensorFlow》
这本书很好地介绍了向量的基本理论和实用性,并通过实例讲解了在机器学习中的应用。
《Neural Network and Deep Learning》
这本书着重于深度学习,但第一章介绍了向量空间和线性代数基础知识,很适合入门。
在线课程:
Andrew Ng的机器学习课程
系列课程中的线性代数部分介绍了向量的基本概念和性质。
Stanford的CS231n课程
这是一个深度学习的专业课程,第一课就全面介绍了在神经网络中的向量运算。
Coursera的李宏毅线性代数课程
该课程从基础开始讲解向量和矩阵,有助于对向量有更全面深刻的理解。
可以学习的内容:
向量空间
向量的表示(数值、稀疏、一维热码等)
向量操作(加法、缩放、内积等)
应用实例(文本处理、推荐系统等)
除了文字资料,可以试着:
在不同场景下实际使用向量
基于数据构建自己的向量模型
在 notebooks 中练习基本的向量计算