OpenAI最新成果:无监督情绪神经元(水军面临失业威胁……)

简介:
本文来自AI新媒体量子位(QbitAI)

OpenAI公布了一项最新成果:一个无监督的系统,很好的学会了表征感情。尽管这个系统目前只用亚马逊商品的顾客评价做了训练,能预测评价文本中的下一个字。

这项研究还发现一个独特的“情感神经元”,包含几乎所有的情感信号。

而且OpenAI这个模型可以用来生成文本,还能直接控制结果文字的情感……所以可能网上的人工水军们,正面临失业的威胁……

使用这一方法的线性模型,在Stanford Sentiment Treebank上,实现了目前最强的情感分析精度:91.8%。Stanford Sentiment Treebank是一个小型数据库,但被广泛用于这列研究,其上之前最好的成绩是90.2%。这一精度可以与有监督系统匹敌,而且可以少用30-100倍的标记数据。

 为了让模型的两个变体(绿线和蓝线)能匹敌用6920个示例训练过的完全监督方法(灰色虚线),所需的有标注示例。OpenAI在亚马逊评论中以无监督的方式预训练的L1正则化模型,只需11个有标注示例就能达到multichannel CNN的水平,用232个有标注示例就能匹敌最先进的CT-LSTM Ensembles

OpenAI的模型本来是用于在亚马逊商品评价中预测下一个字,但是它学习了一个解释性(interpretable)的功能,还发现了情感概念。这让OpenAI的研究人员感到惊讶,他们认为,这不是他们模型所特有的现象,而是用来预测序列中的下一步或输入维度的大型神经网络的一般性质。

方法论

OpenAI首先在8200万亚马逊评论的语料库上用4,096个单位训练了multiplicative LSTM,以预测一小段文本中的下一个字。 训练在四个NVIDIA Pascal GPU上进行,花费了一个月,模型处理速度为每秒12,500个字符。

这4,096个单位(只是浮标的向量)可以被认为是表示模型读取的字符串的特征向量。 在训练mLSTM后,OpenAI通过采用这些单位的线性组合将模型转换为情感分类器,通过可用的监督数据学习组合的权重。

情感神经元

OpenAI这项研究还有一个独特的“情感神经元”,包含几乎所有的情感信号。

在用L1正则化训练线性模型的同时,研究人员注意到,它只用了很少的已学习单位。挖掘其原因的时候发现,实际上存在着一个对情感值有高度预测性的“情感神经元”。

 模型中的情感神经元可以将评论归为负面或正面,虽然模型仅是被训练来预测文本中的下一个字的

和类似模型一样,这个的模型可以用来生成文本。 与这些模型不同的是,它能直接控制结果文字的情感:只需覆盖情感神经元的值。

以上表格中所列的,是由已训练模型生成的合成文本的示例。OpenAI的研究人员在确定情感单位的值以确定评价的感情色彩后,从模型中选择随机样本。下面,他们还通过模型传递前缀“我无法弄清楚”,仅选择高似然样本。

举个例子

下图表示情感神经元的逐字符值,消极值为红色、积极值为绿色。 请注意,像“最好的”或“可怕”这样强烈的指示性词语会引起颜色的特别大变化。

 情绪神经元逐字调整取值

有趣的是,在完成句子和短语之后,系统仍会进行大量更新。 比如说“And about 99.8 percent of that got lost in the film”这个句子,即使“in the film”本身没有表达情感,系统还是在前面的“lost”之后、以及在句子结束后,将情感值向更消极的方向进行了更新。

无监督学习

目前,标签数据是机器学习的燃料。 收集数据很容易,但对数据进行可扩展的标注很难。只有在机器翻译,语音识别或自动驾驶这样的重要问题上,生成标签才能得到相应的回报。

开发无监督学习算法,学习数据集的良好表征,仅用少量标注数据解决问题,一直以来都是机器学习研究人员的梦想。

OpenAI的研究表明,在创建具有良好表征学习能力的系统时,简单地用大量数据训练一个大型的无监督下雨不预测模型,可能是一种很好的方法。

下一步

OpenAI的结果,是迈向一般无人监督的表征学习的重要一步。研究人员通过探索语言建模是否可以学习优质表征从而找到结果,并在仔细选择的数据集上扩大现有模型。然而,潜在的现象比没有更加清楚反而更加神秘。

这些结果对于长文档的数据集不是很强。OpenAI的研究人员怀疑他们的字符级模型努力记住了数百到数千个时间段的信息。他们认为值得尝试用层次模型可以适应他们的时间尺度。进一步扩大这些模型可进一步提高情绪分析和类似任务的表征保真度和性能。

越来越多的输入文本与评论数据分歧。值得验证的是,扩展文本样本的语料库可以获得同样适用于更广泛领域的信息丰富的表征。

这一研究结果表明,存在一种设置能让超大的下一步预测模型很好的学到无监督表征。可以训练一个大型神经网络以预测大量视频的下一帧,这可能会得到对象、场景和动作分类的无监督表征。

本文作者:李林、舒石
原文发布时间:2017-04-07
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI炸裂新作:GPT-4破解GPT-2大脑!30万神经元全被看透
OpenAI炸裂新作:GPT-4破解GPT-2大脑!30万神经元全被看透
292 1
|
人工智能 自然语言处理 搜索推荐
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind(2)
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind
150 0
|
Web App开发 人工智能 前端开发
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind(1)
谁发表了最具影响力的AI研究?谷歌遥遥领先,OpenAI成果转化率完胜DeepMind
|
机器学习/深度学习 数据可视化 Python
OpenAI 开源新的深层神经网络神经元可视化库 Microscope和 Lucid
OpenAI 开源新的深层神经网络神经元可视化库 Microscope和 Lucid
734 0
OpenAI 开源新的深层神经网络神经元可视化库 Microscope和 Lucid
openai 安装运行错误
使用 vbox 安装 openai gym 工具时出现如下问题: pci id for fd 5: 80ee:beef, driver (null) libGL error: core dri or dri2 extension not found l...
1189 0
|
1天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
6天前
|
机器学习/深度学习 人工智能 JSON
【实战干货】AI大模型工程应用于车联网场景的实战总结
本文介绍了图像生成技术在AIGC领域的发展历程、关键技术和当前趋势,以及这些技术如何应用于新能源汽车行业的车联网服务中。
|
2天前
|
人工智能 Kubernetes 安全
赋能加速AI应用交付,F5 BIG-IP Next for Kubernetes方案解读
赋能加速AI应用交付,F5 BIG-IP Next for Kubernetes方案解读
30 13