每周论文清单:高质量文本生成,多模态情感分析,还有一大波GAN | PaperDaily #26

简介:


[ 自然语言处理 ]

Multi-channel Encoder for Neural Machine Translation
@Synced 推荐
Neural Machine Translation

文章提出了一种多信道编码器(MCE)模型,可改进传统神经机器翻译(NMT)模型单一信道编码的缺点。该模型在中英翻译上的 BLEU 值提升了超过 6 个百分点,在英法翻译上用单层模型取得了可与深层模型媲美的效果。

论文链接
https://www.paperweekly.site/papers/1342


DisSent: Sentence Representation Learning from Explicit Discourse Relations
@Ttssxuan 推荐
Sentence Embedding

借助文档中一些特殊的词训练句子 embedding。使用文档中 but、because、although 等词,以及其前后或关联的句子构成语义模型。也就是,使用这些词和句子的关系,约束了句子向量的生成空间(使用句子向量,预测关联词),从而达到训练句子向量目的。

文章只对英文语料进行了测试,实际中文这样的结构也很多,如:因为、所以、虽然、但是,可以参考。

论文链接
https://www.paperweekly.site/papers/1324


End-to-end Learning for Short Text Expansion
@tangxianfeng 推荐
Short Text Expansion

本文第一次用了 end to end 模型来做 short text expansion 这个 task,方法上用了 memory network 来提升性能,在多个数据集上证明了方法的效果;Short text expansion 对很多问题都有帮助,所以这篇 paper 解决的问题是有意义的。

通过在多个数据集上的实验证明了 model 的可靠性,设计的方法非常直观,很 intuitive。

论文链接
https://www.paperweekly.site/papers/1313


Benchmarking Multimodal Sentiment Analysis
@chenbjin 推荐
Multimodal Sentiment Analysis

多模态情感分析目前还有很多难点,该文提出了一个基于 CNN 的多模态融合框架,融合表情,语音,文本等信息做情感分析,情绪识别。

论文链接
https://www.paperweekly.site/papers/1306


Adversarial Ranking for Language Generation
@zhangjun 推荐
Generative Adversarial Networks

本文提出了一种 RankGAN 模型,来解决如何生成高质量文本的问题。

论文链接
https://www.paperweekly.site/papers/1290


[ 计算机视觉 ]


PacGAN: The Power of Two Samples in Generative Adversarial Networks
@Gapeng 推荐
Generative Adversarial Networks

本文旨在研究 mode collapse 问题,提出了 Pac Discriminator 的方法用于解决mode collapse。所谓 pac,就是把 Discriminator 的输入改成多个样本,这么做的好处在于判别器能够同时看到多个样本,可以一定程度上防止 mode collapse 的发生。

我要推荐的并不是他对 mode collapse 的解决方案,而是他分析 mode collapse 的方法,详情参见第 4、5 章。

论文链接
https://www.paperweekly.site/papers/1337


Show-and-Fool: Crafting Adversarial Examples for Neural Image Captioning
@Synced 推荐
Adversarial Training

针对深度学习系统的对抗性样本攻击问题,来自麻省理工学院,加州大学戴维斯分校,IBM Research 和腾讯 AI Lab 的学者在 arXiv 上发表论文提出对于神经网络图像标注系统(neural image captioning system)的对抗样本生成方法。实验结果显示图像标注系统能够很容易地被欺骗。

论文链接
https://www.paperweekly.site/papers/1321


Convolutional Image Captioning
@jamiechoi 推荐

Image Captioning

用 CNN 做 image caption,与 LSTM 对比的话,CNN 的训练速度更快,并且从生成的 caption 效果来看,个人感觉 CNN 的效果也更好。

论文链接
https://www.paperweekly.site/papers/1335


Dual-Path Convolutional Image-Text Embedding
@Layumi 推荐
Convolutional Neural Network

  1. ImageNet 预训练的网络是否是最好的?黑狗白狗都训练成一类 dog,这会损失颜色信息(黑色还是白色)/位置信息(在追球还是树枝)/数量信息(有多少只狗)。同样 word2vec 也未必适合需要处理的数据集(blue 和 red 就很近)所以要进一步 finetune;
  2. 图文互搜要求对图像和文本都有细致的理解。detailed information 很重要;
  3. Ranking Loss 在同时调整两个 CNN 的时候有难度,所以引入了 instance loss;
  4. 在 MSCOCO/Flickr30k 一些 general 数据集上达到 state of the art,在自然语言搜人问题上提升了 18 个点。

论文链接
https://www.paperweekly.site/papers/1311


Learning Feature Pyramids for Human Pose Estimation
@chenhong 推荐
Pose Estimation

论文是香港中文科技大学王晓刚教授团队之作,目前在 MPII 官网在 Single Person 领域,PCKh @ 0.5 evaluation measure,取得 state-of-the-art 水平。

计算机视觉处理人体姿态估计的挑战在于,随着计摄像头视角变化,人体不同部位的图像会发生显著性尺度变化(离摄像头越近的人体部位,看上去越大,图片中占用像素越多)。

单纯低层次或高层次特征是无意义的,需要用特征金字塔网络来融合多层特征,改进 CNN 特征提取,这也是为什么特征金字塔在目标识别和人体姿态识别领域得到广泛使用。

论文在 Stacked Hourglass 基础上,提出 PRMs 模型和研究多分支网络的权重初始化方法。

论文链接
https://www.paperweekly.site/papers/1325

原文发布时间为:2017-12-14
本文作者:让你更懂AI的
本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
4月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
457 41
|
5月前
|
自然语言处理 安全
Min-p采样:通过动态调整截断阈值让大模型文本生成兼顾创造力与逻辑性
大语言模型通过预测下一个词生成文本,采样策略决定其创造力与连贯性。Min-p采样根据模型置信度动态调整选择阈值,在高不确定性时扩大候选范围,低不确定性时聚焦高概率词,相较Top-k、Top-p等方法,更好平衡了多样性与质量,尤其在高温下仍保持输出稳定,提升生成文本的流畅性与创新性。
248 3
|
4月前
|
人工智能 自然语言处理 自动驾驶
超越文本:多模态大语言模型如何让AI“看世界
超越文本:多模态大语言模型如何让AI“看世界
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
88_多模态提示:图像与文本融合
在人工智能领域的快速发展中,多模态融合已成为突破单一模态限制、实现更全面智能理解的关键技术方向。人类理解世界的方式天然是多模态的——我们同时通过视觉、听觉、语言等多种感官获取信息并进行综合分析。例如,在餐厅点餐时,我们会同时处理菜单上的图片、服务员的介绍和菜品的文字描述,最终做出决策。这种自然的多模态信息整合能力,正是人工智能系统长期以来努力追求的目标。
|
9月前
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
2421 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
|
SQL 人工智能 关系型数据库
SQL玩转多模态AI,轻松搞定图片+文本混合搜索
本文介绍了一种通过原生SQL实现多模态智能检索的破局思路,基于PolarDB创新融合AI智能引擎,解决传统AI检索系统数据迁移冗余和工具链割裂的问题。方案优势包括低门槛AI集成、灵活适配多场景、全链路数据安全及按需付费免运维。文章详细描述了部署资源、应用配置及方案验证步骤,并提供清理资源指南以避免额外费用。适合希望快速构建智能搜索应用的开发者参考实践。
|
11月前
|
人工智能 缓存 Apache
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒
Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,具备 240 亿参数,支持文本和图像处理,推理速度快,适合多种应用场景。
445 7
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒
|
11月前
|
机器学习/深度学习 人工智能 缓存
SepLLM:开源大模型加速神器!400万Token长文本推理提速50%,告别OOM噩梦
SepLLM 是一个用于加速大语言模型的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和计算效率,适用于长文本处理和多场景部署。
508 7
SepLLM:开源大模型加速神器!400万Token长文本推理提速50%,告别OOM噩梦
|
10月前
|
人工智能 自然语言处理 图形学
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
Neural4D 2o是DreamTech推出的突破性3D大模型,通过文本、图像、3D和运动数据的联合训练,实现高精度3D生成与智能编辑,为创作者提供全新的多模态交互体验。
724 0
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
|
机器学习/深度学习 人工智能 自然语言处理
Baichuan-Omni-1.5:百川智能开源全模态理解与生成模型,支持文本、图像、音频和视频的多模态输入和输出
Baichuan-Omni-1.5 是百川智能开源的全模态理解模型,支持文本、图像、音频和视频的多模态输入和输出,显著提升多模态交互体验。
976 22
Baichuan-Omni-1.5:百川智能开源全模态理解与生成模型,支持文本、图像、音频和视频的多模态输入和输出

热门文章

最新文章