7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面;单GPU调优GPT-3超参数(2)

简介: 7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面;单GPU调优GPT-3超参数

摘要:来自德国希尔德斯海姆大学计算机科学系的研究者展示了通过精心配置的输入处理结构,GBRT 等简单但强大的集成模型在时间序列预测领域能够媲美甚至超越很多 DNN 模型。

研究者对特征工程多输出 GBRT 模型进行了评估,并提出了以下两个研究问题:

对于用于时间序列预测的基于窗口的学习框架来说,精心配置 GBRT 模型的输入和输出结构有什么效果?一个虽简单但配置良好的 GBRT 模型与 SOTA 深度学习时间序列预测框架相比如何?

为了回答这两个问题,研究者选择了双重实验设置,分别解决两类预测任务,即系统化方式中的单变量和多变量预测。目的是评估 GBRT 模型以及在顶会(NeurIPS、KDD、SIGIR、ECML、ICML、CIKM、IJCAI、ICLR 等)中出现的 SOTA 深度学习方法。这项研究的整体贡献可以总结如下:

一,研究者将一个简单的机器学习方法 GBRT 提升了竞品 DNN 时间序列预测模型的标准。首先将 GBRT 转换成一个基于窗口的回归框架,接着对它的输入和输出结构进行特征工程,如此便能从额外上下文信息中获益最多;二,为了突出输入处理对时间序列预测模型的重要性,研究者通过实证证明了为什么基于窗口的 GBRT 输入设置可以在时间序列预测领域提高 ARIMA 和原版 GBRT 等精心配置的模型所产生的预测性能;三,研究者比较了 GBRT 与各种 SOTA 深度学习时间序列预测模型的性能,并验证了它在单变量和双变量时间序列预测任务中的竞争力。

这种基于窗口的 GBRT 模型输入设置如图 1 所示:

为了使所选的深度学习基线和 GBRT 之间具有显著的可比性,该研究在相同的数据集上评估了所有模型,数据集如下表 1 所示:左边提供了关于用来评估模型数据集,而右边则列出了各自的实验规范:

推荐:梯度提升回归树媲美甚至超越多个 DNN 模型。

论文 6:HCSC: Hierarchical Contrastive Selective Coding


摘要:来自上海交通大学、Mila 魁北克人工智能研究所和字节跳动的研究者提出了一种基于层级语义结构的选择性对比学习框架(Hiearchical Contrastive Selective Coding,HCSC)。

这一框架通过将图像表征进行层级聚类,构造具有层级结构的原型向量 (hierarhcical prototypes),并通过这些原型向量选择更加符合语义结构的负样本进行对比学习, 由此将层级化的语义信息融入到图像表征中。该自监督学习框架在多个下游任务中达到卷积神经网络自监督预训练方法的 SOTA 性能。

该工作的方法论框架包含两个重要的模块: 一个是层级语义结构的构建与维护, 另一个是基于层级语义结构的选择性对比学习。

在实现过程中, 该研究采用了简单有效的自底向上层级 K-means 算法, 具体算法流程如下:

推荐:CVPR 2022,CNN 自监督预训练新 SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架。

论文 7:Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network


摘要:近日,计算机视觉顶级会议 CVPR 2022 接收论文结果已经正式公布,会议接收了一篇由北京航空航天大学、科大讯飞研究院共同完成的工作,论文题目为《Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network》(之后公布论文链接)。这项工作以 X 光安检场景为例,首先从域间偏移产生原因入手,分析由机器硬件参数等原因造成的域间内生偏移和常见的天气等外部原因造成的域间内生偏移的异同点。此外,该工作还构建了内生偏移自适应能力评估基准,并提出了噪声抑制网络,为跨域检测带来新的思考。

在本文中,研究者们以 X 光安检场景为例,首先从域间偏移产生原因入手,结合常见的自然场景变化,分析外生和内生域间偏移的异同点。然后展示研究者们构建的内生偏移自适应能力评估基准,以及噪声抑制网络,探索目标检测模型在复杂环境下由于感知设备变化导致的脆弱性问题,寻找不同类别物体的领域无关特征的最佳表征。

在表 1 中,研究者们从不同场景、领域数量和支持的实验组数分别把 EDS 数据集和跨域检测任务下各种类型的数据集进行了对比。

表 1 EDS 数据集和传统跨域检测数据集对比

图 1 EDS 数据集中物品实物图和不同 X 光机器下的成像图

噪声抑制网络的框架图如图 4 所示,它包括两个重要的子模块,分别是局部原型对齐和全局对抗同化。局部原型对齐模块主要针对类别相关噪声,全局对抗同化主要针对类别无关噪声。以下分别展开叙述。

图 4 噪声抑制网络的结构图

整个网络的训练流程如下:

推荐:CVPR 2022,跨域检测新任务,北航、讯飞提出内生偏移自适应基准和噪声抑制网络。


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

10 NLP Papers音频:00:0021:22

本周 10 篇 NLP 精选论文是:

1. Focus on the Target's Vocabulary: Masked Label Smoothing for Machine Translation.  (from Liang Chen)2. Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation.  (from Kathleen McKeown)3. Sentence-Select: Large-Scale Language Model Data Selection for Rare-Word Speech Recognition.  (from Tara N. Sainath)4. Input-Tuning: Adapting Unfamiliar Inputs to Frozen Pretrained Models.  (from Nanning Zheng)5. DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning.  (from Abdelrahman Mohamed)6. Training language models to follow instructions with human feedback.  (from John Schulman)7. Conditional Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation.  (from Jian Liu)8. Look Backward and Forward: Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation.  (from Liang Wang)9. SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained Language Models.  (from Liang Wang)10. Adaptive Discounting of Implicit Language Models in RNN-Transducers.  (from Sunita Sarawagi)

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
143 2
|
2月前
|
存储 人工智能 开发工具
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
只需要通过向AI助理提问的方式输入您的需求,即可瞬间获得核心流程代码及参数,缩短学习路径、提升开发效率。
1451 4
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
|
16天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
111 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
5天前
|
人工智能 API Windows
免费部署本地AI大语言模型聊天系统:Chatbox AI + 马斯克grok2.0大模型(简单5步实现,免费且比GPT4.0更好用)
本文介绍了如何部署本地AI大语言模型聊天系统,使用Chatbox AI客户端应用和Grok-beta大模型。通过获取API密钥、下载并安装Chatbox AI、配置模型,最终实现高效、智能的聊天体验。Grok 2大模型由马斯克X-AI发布,支持超长文本上下文理解,免费且易于使用。
31 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
54 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开
【10月更文挑战第20天】近日,开源版GPT-4o的发布成为AI领域的焦点。作为GPT系列的最新成员,GPT-4o在性能和多模态数据处理方面实现了显著提升,得到了知名AI专家Andrej Karpathy的高度评价。该模型的开源特性将进一步促进AI研究的进展。
59 3
|
2月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
69 1
|
2月前
|
人工智能 前端开发 测试技术
探索前端与 AI 的结合:如何用 GPT-4 助力开发效率
本文介绍了 GPT-4 如何成为前端开发者的“神队友”,让开发变得更加高效愉快。无论是需求到代码的自动生成、快速调试和性能优化,还是自动化测试和技术选型,GPT-4 都能提供极大的帮助。通过智能生成代码、捕捉 BUG、优化性能、自动化测试生成以及技术支持,GPT-4 成为开发者不可或缺的工具,帮助他们从繁重的手动任务中解脱出来,专注于创新和创意。GPT-4 正在彻底改变开发流程,让开发者从“辛苦码农”转变为“效率王者”。
50 0
探索前端与 AI 的结合:如何用 GPT-4 助力开发效率
|
2月前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
2月前
|
人工智能
用AI人模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!
斯坦福大学和纽约大学的研究团队利用GPT-4模型成功模拟了人类在社交互动中的行为模式,实验结果显示AI能以惊人准确度模仿人类对话,甚至在在线论坛和社交媒体上与真人难以区分。这一突破不仅展示了AI在社会学研究中的巨大潜力,还引发了对AI伦理和透明度的深入探讨。尽管存在一些局限性和挑战,这项研究为未来社会学实验提供了新工具和方法。[论文地址:https://docsend.com/view/qeeccuggec56k9hd]
76 2
下一篇
DataWorks