7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面;单GPU调优GPT-3超参数(2)

简介: 7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面;单GPU调优GPT-3超参数

摘要:来自德国希尔德斯海姆大学计算机科学系的研究者展示了通过精心配置的输入处理结构,GBRT 等简单但强大的集成模型在时间序列预测领域能够媲美甚至超越很多 DNN 模型。

研究者对特征工程多输出 GBRT 模型进行了评估,并提出了以下两个研究问题:

对于用于时间序列预测的基于窗口的学习框架来说,精心配置 GBRT 模型的输入和输出结构有什么效果?一个虽简单但配置良好的 GBRT 模型与 SOTA 深度学习时间序列预测框架相比如何?

为了回答这两个问题,研究者选择了双重实验设置,分别解决两类预测任务,即系统化方式中的单变量和多变量预测。目的是评估 GBRT 模型以及在顶会(NeurIPS、KDD、SIGIR、ECML、ICML、CIKM、IJCAI、ICLR 等)中出现的 SOTA 深度学习方法。这项研究的整体贡献可以总结如下:

一,研究者将一个简单的机器学习方法 GBRT 提升了竞品 DNN 时间序列预测模型的标准。首先将 GBRT 转换成一个基于窗口的回归框架,接着对它的输入和输出结构进行特征工程,如此便能从额外上下文信息中获益最多;二,为了突出输入处理对时间序列预测模型的重要性,研究者通过实证证明了为什么基于窗口的 GBRT 输入设置可以在时间序列预测领域提高 ARIMA 和原版 GBRT 等精心配置的模型所产生的预测性能;三,研究者比较了 GBRT 与各种 SOTA 深度学习时间序列预测模型的性能,并验证了它在单变量和双变量时间序列预测任务中的竞争力。

这种基于窗口的 GBRT 模型输入设置如图 1 所示:

为了使所选的深度学习基线和 GBRT 之间具有显著的可比性,该研究在相同的数据集上评估了所有模型,数据集如下表 1 所示:左边提供了关于用来评估模型数据集,而右边则列出了各自的实验规范:

推荐:梯度提升回归树媲美甚至超越多个 DNN 模型。

论文 6:HCSC: Hierarchical Contrastive Selective Coding


摘要:来自上海交通大学、Mila 魁北克人工智能研究所和字节跳动的研究者提出了一种基于层级语义结构的选择性对比学习框架(Hiearchical Contrastive Selective Coding,HCSC)。

这一框架通过将图像表征进行层级聚类,构造具有层级结构的原型向量 (hierarhcical prototypes),并通过这些原型向量选择更加符合语义结构的负样本进行对比学习, 由此将层级化的语义信息融入到图像表征中。该自监督学习框架在多个下游任务中达到卷积神经网络自监督预训练方法的 SOTA 性能。

该工作的方法论框架包含两个重要的模块: 一个是层级语义结构的构建与维护, 另一个是基于层级语义结构的选择性对比学习。

在实现过程中, 该研究采用了简单有效的自底向上层级 K-means 算法, 具体算法流程如下:

推荐:CVPR 2022,CNN 自监督预训练新 SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架。

论文 7:Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network


摘要:近日,计算机视觉顶级会议 CVPR 2022 接收论文结果已经正式公布,会议接收了一篇由北京航空航天大学、科大讯飞研究院共同完成的工作,论文题目为《Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network》(之后公布论文链接)。这项工作以 X 光安检场景为例,首先从域间偏移产生原因入手,分析由机器硬件参数等原因造成的域间内生偏移和常见的天气等外部原因造成的域间内生偏移的异同点。此外,该工作还构建了内生偏移自适应能力评估基准,并提出了噪声抑制网络,为跨域检测带来新的思考。

在本文中,研究者们以 X 光安检场景为例,首先从域间偏移产生原因入手,结合常见的自然场景变化,分析外生和内生域间偏移的异同点。然后展示研究者们构建的内生偏移自适应能力评估基准,以及噪声抑制网络,探索目标检测模型在复杂环境下由于感知设备变化导致的脆弱性问题,寻找不同类别物体的领域无关特征的最佳表征。

在表 1 中,研究者们从不同场景、领域数量和支持的实验组数分别把 EDS 数据集和跨域检测任务下各种类型的数据集进行了对比。

表 1 EDS 数据集和传统跨域检测数据集对比

图 1 EDS 数据集中物品实物图和不同 X 光机器下的成像图

噪声抑制网络的框架图如图 4 所示,它包括两个重要的子模块,分别是局部原型对齐和全局对抗同化。局部原型对齐模块主要针对类别相关噪声,全局对抗同化主要针对类别无关噪声。以下分别展开叙述。

图 4 噪声抑制网络的结构图

整个网络的训练流程如下:

推荐:CVPR 2022,跨域检测新任务,北航、讯飞提出内生偏移自适应基准和噪声抑制网络。


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

10 NLP Papers音频:00:0021:22

本周 10 篇 NLP 精选论文是:

1. Focus on the Target's Vocabulary: Masked Label Smoothing for Machine Translation.  (from Liang Chen)2. Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation.  (from Kathleen McKeown)3. Sentence-Select: Large-Scale Language Model Data Selection for Rare-Word Speech Recognition.  (from Tara N. Sainath)4. Input-Tuning: Adapting Unfamiliar Inputs to Frozen Pretrained Models.  (from Nanning Zheng)5. DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning.  (from Abdelrahman Mohamed)6. Training language models to follow instructions with human feedback.  (from John Schulman)7. Conditional Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation.  (from Jian Liu)8. Look Backward and Forward: Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation.  (from Liang Wang)9. SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained Language Models.  (from Liang Wang)10. Adaptive Discounting of Implicit Language Models in RNN-Transducers.  (from Sunita Sarawagi)

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
3月前
|
存储 SQL 人工智能
新年将至,为大家推荐一款开源AI红包封面制作神器AiCover!
新年将至,为大家推荐一款开源AI红包封面制作神器AiCover!
|
10月前
|
存储 人工智能 自然语言处理
Elasticsearch Relevance Engine---为AI变革提供高级搜索能力[ES向量搜索、常用配置参数、聚合功能等详解]
Elasticsearch Relevance Engine---为AI变革提供高级搜索能力[ES向量搜索、常用配置参数、聚合功能等详解]
Elasticsearch Relevance Engine---为AI变革提供高级搜索能力[ES向量搜索、常用配置参数、聚合功能等详解]
|
传感器 机器学习/深度学习 人工智能
Nature封面:AI提高自动驾驶夜视能力,检测黑夜、雾天场景和白天一样
Nature封面:AI提高自动驾驶夜视能力,检测黑夜、雾天场景和白天一样
171 0
|
9天前
|
机器学习/深度学习 人工智能
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!
【8月更文挑战第11天】牛津与剑桥大学研究揭示,AI模型若反复在自身生成的数据上训练,将遭遇“模型崩溃”,即性能严重退化,甚至遗忘真实世界的数据分布。此现象在《自然》杂志刊出,警示AI进化之路暗藏风险。实验显示,随着训练代际增加,模型倾向于生成更简单内容,丢失稀有信息,最终可能导致对现实世界的误解加深。此发现对AI领域的持续发展及模型可靠性提出了新的挑战。
129 60
|
19天前
|
机器学习/深度学习 人工智能 算法
在 AI Native 环境中实现自动超参数优化的微调方法
【8月更文第1天】随着人工智能技术的不断发展,深度学习模型的训练变得越来越复杂。为了达到最佳性能,需要对模型进行微调,特别是对超参数的选择。本文将探讨如何在 AI Native 环境下使用自动化工具和技术来优化模型的微调过程。
39 5
|
2月前
|
机器学习/深度学习 并行计算 PyTorch
【从零开始学习深度学习】20. Pytorch中如何让参数与模型在GPU上进行计算
【从零开始学习深度学习】20. Pytorch中如何让参数与模型在GPU上进行计算
|
1月前
|
人工智能
AI绘画,Stable Diffusion如何使用中文简体包,黑色页面切换参数http://127.0.0.1:7860/?__theme=dark 两个__,中文包下载和安装
AI绘画,Stable Diffusion如何使用中文简体包,黑色页面切换参数http://127.0.0.1:7860/?__theme=dark 两个__,中文包下载和安装
|
3月前
|
物联网 调度 异构计算
使用GaLore在本地GPU进行高效的LLM调优
GaLore是一种新的优化策略,它通过梯度低秩投影减少VRAM需求,使得大型语言模型(如70亿参数的模型)能在消费级GPU上进行微调,而不减少参数数量。与LoRA相比,GaLore内存效率更高,且性能相当或更优。它在反向传播期间逐层更新参数,降低了计算负荷。虽然GaLore训练时间较长,但它为个人爱好者提供了在有限资源下训练大模型的可能性。相关代码示例和性能对比显示了其优势。
150 0
|
3月前
|
存储 人工智能 自然语言处理
参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数
参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数
62 0
|
人工智能
AI Stable Diffusion Prompt参数【二】之 生成效果查验
AI Stable Diffusion Prompt参数【二】之 生成效果查验

热门文章

最新文章