《中国人工智能学会通讯》——1.33 基础模型

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第1章,第1.33节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

1.33 基础模型

在自然语言处理中,很多任务的输入是变长的文本序列,而传统分类器的输入需要固定大小。因此,我们需要将变长的文本序列表示成固定长度的向量。以句子为例,一个句子的表示(也称为编码)可以看成是句子中所有词的语义组合。因此,句子编码方法近两年也受到广泛关注。句子编码主要研究如何有效地从词嵌入通过不同方式的组合得到句子表示。其中,比较有代表性方法有四种。

第一种是神经词袋模型,简单对文本序列中每个词嵌入进行平均,作为整个序列的表示。这种方法的缺点是丢失了词序信息。对于长文本,神经词袋模型比较有效。但是对于短文本,神经词袋模型很难捕获语义组合信息。

第二种方法是递归神经网络,按照一个外部给定的拓扑结构(比如成分句法树),不断递归得到整个序列的表示[9] 。递归神经网络的一个缺点是需要给定一个拓扑结构来确定词和词之间的依赖关系,因此限制其使用范围。一种改进的方式引入门机制来自动学习拓扑结构[10] 。

第三种是循环神经网络,将文本序列看作时间序列,不断更新,最后得到整个序列的表示。但是简单的循环神经网络存在长期依赖问题,不能有效利用长间隔的历史信息。因此,人们经常使用两个改进的模型:长短时记忆神经网络(LSTM) [11] 和基于门机制的循环单元(GRU) [12] 。

第四种是卷积神经网络,通过多个卷积层和子采样层,最终得到一个固定长度的向量。在一般的深度学习方法中,因为输入是固定维数的,因此子采样层的大小和层数是固定的。为了能够处理变长的句子,一般采用两种方式。一种是层数固定,但是子采样的大小不固定。根据输入的长度和最终向量的维数来动态确定子采样层的大小[13] 。另外一种是将输入的句子通过加入零向量补齐到一个固定长度,然后利用固定大小的卷积网络来得到最终的向量表示[14] 。

在上述四种基本方法的基础上,很多研究者综合这些方法的优点,提出了一些组合模型。Tai 等人[15]基于句法树的长短时记忆神经网络(Tree - LSTM), 将标准 LSTM 的时序结构改为语法树结构,在文本分类上得到非常好提升。Zhu 等人[16]提出了一种递归卷积神经网络模型,在递归神经网络的基础上引入卷积层和子采样层,这样更有效地提取特征组合,并且支持多叉树的拓扑结构。

如果处理的对象是比句子更长的文本序列(比如篇章),为了降低模型复杂度,一般采用层次化的方法。先得到句子编码,然后以句子编码为输入,进一步得到篇章的编码。

在上述模型中,循环神经网络因为非常适合处理文本序列,因此被广泛应用在很多自然语言处理任务上。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 边缘计算
大模型:引领人工智能新纪元的引擎
大模型:引领人工智能新纪元的引擎
|
1月前
|
人工智能 安全 网络安全
欧盟《人工智能法案》对通用AI模型的监管要求
【2月更文挑战第24天】欧盟《人工智能法案》对通用AI模型的监管要求
82 1
欧盟《人工智能法案》对通用AI模型的监管要求
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与文本生成:基于Transformer的文本生成模型
人工智能与文本生成:基于Transformer的文本生成模型
116 0
|
2月前
|
机器学习/深度学习 人工智能 安全
中国信通院联合金橙果科技等十七家单位发起人工智能大模型安全基准测试
2024年2月20日下午,AIIA“SafetyAI Bench”(人工智能大模型安全基准测试)线上研讨会成功举办。来自中国信息通信研究院(以下简称“中国信通院”)、厦门大学、北京大学、北京交通大学、360、百度、蚂蚁集团、VIVO、西门​子、小鹏汽车、马上消费、浪潮科技、海信视像、交通银行、商汤科技、邮储银行、普华永道、科大讯飞、金橙果科技、万商天勤律所、中兴通讯、博特智能、开源网安、云天励飞等单位40余位科研机构专家及企业代表参加了本次会议。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型
2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型
|
3月前
|
SQL 存储 人工智能
探索语义解析技术和AI人工智能大模型的关系
探索语义解析技术和AI人工智能大模型的关系
76 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能基础——模型部分:模型介绍、模型训练和模型微调 !!
人工智能基础——模型部分:模型介绍、模型训练和模型微调 !!
159 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能大模型引领智能时代的革命
随着AI技术的飞速发展,人工智能大模型正成为推动社会进步和经济发展的重要力量,比如GPT-3、BERT和其他深度学习架构,正在开启一个全新的智能时代。在人机交互、计算范式和认知协作三个领域,大模型带来了深刻的变革。那么本文就来分享一下关于大模型如何提升人机交互的自然性和智能化程度,以及它们如何影响现有的计算模式并推动新一代计算技术的演进,并探讨这些变革对未来的意义。
41 1
人工智能大模型引领智能时代的革命
|
19天前
|
人工智能 搜索推荐 算法
人工智能,应该如何测试?(七)大模型客服系统测试
这篇文稿讨论了企业级对话机器人的知识引擎构建,强调了仅靠大模型如 GPT 是不够的,需要专业领域的知识库。知识引擎的构建涉及文档上传、解析、拆分和特征向量等步骤。文档解析是难点,因文档格式多样,需将内容自动提取。文档拆分按语义切片,以便针对性地回答用户问题。词向量用于表示词的关联性,帮助模型理解词义关系。知识引擎构建完成后,通过语义检索模型或问答模型检索答案。测试环节涵盖文档解析的准确性、问答模型的正确率及意图识别模型的性能。整个过程包含大量模型组合和手动工作,远非简单的自动化任务。
33 0
|
1月前
|
人工智能 自然语言处理 计算机视觉
知达行业、绘就蓝图,泽塔云人工智能大模型“知绘”正式发布!
人工智能风起云涌,新技术革命分新秒异,如何有效推动大模型真正赋能行业,加快形成新质生产力,是当下破局之关键。 在这场不断探索、寻求突破与创新的征途中,泽塔云基于在GPU算力领域的成熟经验,及对AI应用场景的深入洞察,正式发布人工智能大模型——“知绘”,旨为推动大模型在垂直行业应用落地,加速产业重塑和价值提升,并进一步激发个人创意的无限潜能,释放生产力!

热门文章

最新文章