向量

简介: 向量是一种表示符合线性可加性的数值的数据结构。它可以用于表示词汇、文本或者图片等数据。

向量是一种表示符合线性可加性的数值的数据结构。它可以用于表示词汇、文本或者图片等数据。

计数向量和词频向量是在自然语言处理(NLP)中常用的文本向量化表示方法:

计数向量(Count Vector):记录每个单词在文本中的出现频次
例如:
['the', 3]
['cat', 2]
['sat', 1]

它使用单词的计数作为特征,忽略了单词重要性。

词频向量(TF Vector):记录每个单词在文本中的频率
例如:
['the', 0.3]
['cat', 0.2]
['sat', 0.1]

向量的值是该单词出现的频次除以文本总单词数。

这两种向量表示都可以应用在:

文本分类:将向量作为模型输入,训练分类模型
文本聚类:将文本表示成向量,然后进行聚类分析
信息 Retrieval:计算向量之间的相似度
向量的主要优点是:

具有线性特征,计算方便
数据占用内存小,便于处理大量文本
允许使用向量操作来发现文本间的关系
总的来说,向量通过记录单词出现的次数或频率,将文本转化为固定长度的数值表示。
它可以应用于自然语言处理的多种任务中。

以下是学习向量知识和应用的一些推荐资料:

书籍:

《Hands-On Machine Learning with Scikit-Learn and TensorFlow》
这本书很好地介绍了向量的基本理论和实用性,并通过实例讲解了在机器学习中的应用。

《Neural Network and Deep Learning》
这本书着重于深度学习,但第一章介绍了向量空间和线性代数基础知识,很适合入门。

在线课程:

Andrew Ng的机器学习课程
系列课程中的线性代数部分介绍了向量的基本概念和性质。

Stanford的CS231n课程
这是一个深度学习的专业课程,第一课就全面介绍了在神经网络中的向量运算。

Coursera的李宏毅线性代数课程
该课程从基础开始讲解向量和矩阵,有助于对向量有更全面深刻的理解。

可以学习的内容:

向量空间
向量的表示(数值、稀疏、一维热码等)
向量操作(加法、缩放、内积等)
应用实例(文本处理、推荐系统等)
除了文字资料,可以试着:

在不同场景下实际使用向量
基于数据构建自己的向量模型
在 notebooks 中练习基本的向量计算

目录
相关文章
|
人工智能 搜索推荐
StableIdentity:可插入图像/视频/3D生成,单张图即可变成超人,可直接与ControlNet配合使用
【2月更文挑战第17天】StableIdentity:可插入图像/视频/3D生成,单张图即可变成超人,可直接与ControlNet配合使用
539 2
StableIdentity:可插入图像/视频/3D生成,单张图即可变成超人,可直接与ControlNet配合使用
|
安全 NoSQL Java
SpringSecurity原理简述(上)
SpringSecurity原理简述
220 2
QT实现雷达图和摇杆图
小伙伴们大家好,之前我上传了一个资源(骗积分用的),但是没有效果图和博文与之对应,所以大家应该是都不敢下载的吧, 先上资源链接 : 一个雷达图和一个摇杆图(方向可以根据你自己的需要增加)资源 再上效果图。
622 1
QT实现雷达图和摇杆图
|
Java Maven
解决【IDEA】Maven项目pom.xml依赖包下载太慢
【IDEA】Maven项目pom.xml依赖包下载太慢
解决【IDEA】Maven项目pom.xml依赖包下载太慢
|
缓存 Ubuntu Linux
LXC (Linux 虚拟环境)简单介绍
LXC是Linux containers的简称,操作系统级别的虚拟化技术。它可以在操作系统层次上为进程提供的虚拟的执行环境。一个虚拟的执行环境被称为一个容器(container)。可以为容器绑定特定的cpu和memory节点,分配特定比例的cpu时间、IO时间,限制可以使用的内存大小(包括内存和是swap空间),提供device访问控制,提供独立的namespace(网络、pid、ipc、mnt、uts)。
1335 0
LXC (Linux 虚拟环境)简单介绍
|
8月前
|
人工智能 自然语言处理 数据可视化
Agentic Reasoning:推理界RAG诞生!牛津大学框架让LLM学会『组队打怪』:动态调用搜索/代码代理,复杂任务准确率飙升50%
Agentic Reasoning 是牛津大学推出的增强大型语言模型(LLM)推理能力的框架,通过整合外部工具提升多步骤推理、实时信息检索和复杂逻辑关系组织的能力。
307 1
|
12月前
|
关系型数据库 MySQL 数据库
mysql中tonumber函数使用要注意什么
在处理这类转换操作时,考虑周全,利用提供的高性能云服务器资源,可以进一步提升数据库处理效率,确保数据操作的稳定性和安全性,尤其是在处理大量数据转换和运算密集型应用时。
306 0
记录一次Linux服务器被人使用SSH字典爆破
曾经我以为互联网到至今应该是很和平的状态,但是经历了这次ssh字典爆破攻击后我才意识到网络攻击无处不在,建议系统密码使用比较复杂的随机字符组合,七八十位都没问题,数据可贵,电脑该装杀毒软件的就装上,别因为那占用那点内存而舍弃杀毒软件,防网络攻击于未然 !
|
C# 图形学
【Unity 3D】游戏对象、添加删除获取组件、预制体Prefabs简介
【Unity 3D】游戏对象、添加删除获取组件、预制体Prefabs简介
421 0
|
消息中间件 Linux
mq报错abbit@syld36: * connected to epmd (port 4369) on syld36 * epmd reports node ‘rabbit‘ uses po
mq报错abbit@syld36: * connected to epmd (port 4369) on syld36 * epmd reports node ‘rabbit‘ uses po
249 0