找到了一篇介绍ChatGPT核心技术的论文(下)

简介: 找到了一篇介绍ChatGPT核心技术的论文

正文


 3启发收获


从理论科研进步的角度看

Transformer打破了时序计算的逻辑,开始快速出圈,多个AI原本比较独立的领域开始在技术上融合。再往里看,Transformer能打破时序很重要一点是并行计算的算力模式给更复杂的计算带来了性价比上的可能性。算力的进一步提高,必将在AI各细分领域带来融合,更基础设施级别的模型,算法仍将不断推出。AI领域在图像,NLP;感知认知领域的专业分工也会慢慢变模糊。

AI科研确实具有一些实验性质。除了核心思想,确实还有很多技术点的解决方向已经明确,但还有很大的提升空间,可以预见围绕Transformer周边的微创新会持续加速繁荣。

《Attention is all your need》在业内大名鼎鼎,但你要是细看,会发现很多内容也是拿来主义,比如最重要的Attention(Q,K,V)中Query,Key,Value是互联网推荐系统的标配方法论;整个Transformer算法也是一个大的神经网络,算法是在前人基础上一步一步迭代发展,只是这个迭代速度明显在加快。

从理论、算法、架构、工程的角度看

AI算法科研领域正经历算法、开源代码、工程、算力的增长飞轮。

20.jpg

下图是顶级刊物上的学术论文中,开放源代码的论文比例,这个数据在这几年以更快的速度在增长。科研过程与工程过程产生越来越大的交集。开源社区和开源文化本身也在推动算法和工程的快速发展。

21.jpg

更多人参与,更多领域的人参与进来,进入门槛随着算力成本、AI基础架构和代码、知识分享的开源逐渐降低,科研与工程的边界也变得模糊,这个就像足球运动的规律,除了足球人口增多,天才球员梅西出现的概率也会增大。


从数据和后续方案发展的角度看


ChatGPT的成功同大量的数据训练功不可没,但除了简单对话互动或者翻译,大篇幅回答甚至论文级别的答案还是极其缺乏样本数据(算法训练需要的样本数据需要清晰度X和Y)。

而且Transformer的算法相比其他算法需要更大的数据量,原因在于它需要起始阶段随机产生三个矩阵,一步一步进行优化。除了Transformer以外,另一个技术Bert也是技术发展非常重要的现象级算法。其核心是一个简化的Transformer,Bert不去做从A翻译到B,它随机遮住X里面的一些单词或句子让算法优化对遮住部分的预测。这种思路使得Bert成为了Transformer预训练最好的搭档。

22.jpg

如果通过Bert进行预训练,相当于给矩阵加入了先验知识(之前训练逻辑没有给机器任何提示,规则后者基础知识),提高了正式训练时初始矩阵的准确度,极大地提升了之后Transformer的计算效率和对数据量的要求。

在现实中,举例来说,如果我想训练国家图书馆图书,之前需要每本书的信息和对这本书的解释,或者中文书对应的英文书。但现在我们可以大量只是训练内容,不需要打标签,之后只需要通过Transformer对样本数据进行微调。这就给ChatGPT很大的进步空间,而且可以预见,更多这类大模型会雨后春笋一般快速出现。

由于Transformer是更高级的神经网络深度学习算法,对数据量有很高要求,这也催生了从小数据如何快速产生大数据的算法,比如GAN对抗网络等。这是AIGC领域的核心技术。解决数据量不足问题,除了更高效率抽象小数据的信息,也多了把小数据补足成大数据的方法,而且这些方法在快速成熟。

我们发现在机器学习算法中有大量的超级参数,比如在Transformer里多头机制需要几头N,文字变成向量是512还是更多,学习速率等都需要在训练之前提前设置。由于训练时间长,参数复杂,要想遍历更优秀的计算效果需要非常长的摸索时间。

这就催生出AutoML,第四范式在这个领域研究多年,拿Transformer举例,就要很多个路线进行自动化机器学习;比如贝叶斯计算(找到更优参数配置概率);强化学习思路(贪婪算法在环境不明朗情况下迅速逼近最优);另外还有寻求全新训练网络的方法(Transformer,RNN,MLP等联合使用排列组合)等。

科研发展强调参数化,工业发展强调自动化,这两者看似统一,但在现实实操过程中往往是相当痛苦矛盾的。这也是开篇说的产品化和科研流动性相平衡的一个重要领域。

本文源自公众号智能化学习与思考,分布式实验室已获完整授权。


相关文章
|
13天前
|
机器学习/深度学习 数据采集 存储
4个维度讲透ChatGPT技术原理,揭开ChatGPT神秘技术黑盒
4个维度讲透ChatGPT技术原理,揭开ChatGPT神秘技术黑盒
|
13天前
|
存储 自然语言处理 搜索推荐
ChatGPT 文本Embedding融合Qdrant向量数据库:构建智能问答系统的技术探索
向量数据库结合ChatGPT带来了什么 1. **语义搜索:** 使用向量数据库进行语义搜索,可以更准确地找到与查询相关的信息。ChatGPT可以理解用户的自然语言查询,而向量数据库可以根据语义相似性返回匹配的向量数据。 2. **智能推荐:** 结合ChatGPT的智能理解和向量数据库的相似性搜索,可以实现更智能的推荐系统。系统可以根据用户的历史行为和语境,向用户推荐相似的向量数据,如文章、产品或其他内容。 3. **自然语言处理与向量表示结合:** ChatGPT可以将自然语言转换为向量表示,这样就可以在向量数据库中进行更高效的查询。这种集成使得自然语言处理和向量数据库可以相互补充等
403 0
|
13天前
|
机器学习/深度学习 人工智能 算法
【极客技术】ColossalChat用完整RLHF技术克隆ChatGPT的开源解决方案
【极客技术】ColossalChat用完整RLHF技术克隆ChatGPT的开源解决方案
48 0
|
1天前
|
机器学习/深度学习 传感器 人工智能
使用ChatGPT帮我们写一篇论文,最后查重的重复率会是多少?
使用ChatGPT帮我们写一篇论文,最后查重的重复率会是多少?
|
13天前
|
存储 人工智能 算法
【论文阅读-问答】人工智能生成内容增强的甲状腺结节计算机辅助诊断模型:CHATGPT风格的助手
【论文阅读-问答】人工智能生成内容增强的甲状腺结节计算机辅助诊断模型:CHATGPT风格的助手
31 6
|
13天前
|
自然语言处理 数据格式
【ChatIE】论文解读:Zero-Shot Information Extraction via Chatting with ChatGPT
【ChatIE】论文解读:Zero-Shot Information Extraction via Chatting with ChatGPT
35 1
|
13天前
|
机器学习/深度学习 人工智能
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
【2月更文挑战第25天】ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
47 7
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
|
13天前
|
人工智能
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
最近,一篇发表在《Surfaces and Interfaces》的论文引起了广泛关注,因为其中意外包含了ChatGPT的提示语,暴露出学术审稿过程中的疏忽。这篇论文讨论了铜基金属-有机框架-芳香族纤维素分隔器对锂金属阳极电池的影响,但却出现了不该出现的ChatGPT对话内容。这一事件不仅令人哭笑不得,还引发了对学术审核严谨性的质疑。它反映了当前学术界可能过度依赖AI写作工具,忽略了基本的检查和编辑步骤。这一事件提醒学术界必须加强审查机制和自律,确保论文质量,防止类似尴尬情况的再次发生。
130 4
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
|
13天前
|
机器学习/深度学习 传感器 人工智能
使用ChatGPT帮我们写一篇论文,最后查重的重复率会是多少?
使用ChatGPT帮我们写一篇论文,最后查重的重复率会是多少?
41 1
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
技术小白能看懂的ChatGPT原理介绍
网上有关 ChatGPT 的原理介绍文章一大堆,要么是从 NLP 的历史开始讲起,要么是上数 GPT 3 代,内容都相对冗长和复杂。其实 ChatGPT 的原理并不难理解,我将以最通俗易懂的方式为技术小白解读,帮助大家更好地了解这一技术
519 1
技术小白能看懂的ChatGPT原理介绍