选对论文,效率提升50% | 本周值得读

简介:

// 自然语言处理 //

Chinese Text in the Wild
@paperweekly 推荐
Chinese Text Dataset

清华大学和腾讯共同推出了一个超大规模的中文自然文本数据集——CTW,该数据集包含 32,285 张图像和 1,018,402 个中文字符,规模远超此前的同类数据集。

论文链接
https://www.paperweekly.site/papers/1738
数据集链接
https://ctwdataset.github.io/

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling
@zhkun 推荐
Attention Model

本文将 hard-attention 和 soft-attention 进行巧妙融合,hard-attention 处理长句子依赖问题,soft-attention 进行更精细化的操作,同时为 hard-attention 提供指导,并在强化学习的方法下实现了两种 attention mechanism 的有效融合,方法还是很有意思的。

论文链接
https://www.paperweekly.site/papers/1711

Building Task-Oriented Dialogue Systems for Online Shopping
@xcwill 推荐
Dialog System

本文来自微软小冰团队,论文展示了完整的基于网购任务的对话系统构建。

论文链接
https://www.paperweekly.site/papers/1724

A Survey of Model Compression and Acceleration for Deep Neural Networks
@kaierlong 推荐
Deep Learning

本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,本论文对每一类方法的性能、相关应用、优势和缺陷等进行独到的分析。

论文链接
https://www.paperweekly.site/papers/1675

A Hybrid CNN-RNN Alignment Model for Phrase-Aware Sentence Classification
@yinnxinn 推荐
Sentence Classification

本文有机地将 CNN 和 RNN 结合,从语义层面对 sentense 进行分类,取得良好的效果,文章亮点在于模型的结合使用。

论文链接
https://www.paperweekly.site/papers/1666

// 计算机视觉 //

Tiny SSD: A Tiny Single-shot Detection Deep Convolutional Neural Network for Real-time Embedded Object Detection
@Romantic1412 推荐
Object Detection

本文来自滑铁卢大学和 DarwinAI,论文提出了一个比 Tiny YOLO 更快效果更好的适用于嵌入式设备的物体检测算法。

论文链接
https://www.paperweekly.site/papers/1687

Comparative Analysis of Unsupervised Algorithms for Breast MRI Lesion Segmentation
@xaj 推荐
Medical Image Analysis

本文研究的问题是乳腺核磁共振图像(2D)的分割,对比了 K-Means、标记控制分水岭算法和高斯混合模型三种方法。

论文链接
https://www.paperweekly.site/papers/1737

Diagnose like a Radiologist: Attention Guided Convolutional Neural Network for Thorax Disease Classification
@Layumi 推荐
Medical Image Analysis

本文提升了 ChestX-ray14 数据集上 state-of-the-art performance。通过 Attention机制,让计算机关注病理区域。

论文链接
https://www.paperweekly.site/papers/1677

GIFGIF+: Collecting Emotional Animated GIFs with Clustered Multi-Task Learning
@sunlightll 推荐
Multi-task Learning

本文从 Giphy 网站上获取 GIF 图片,通过其 GIFGIF 平台,这篇文章构建了一个带有情感的 GIF 图片库:GIFGIF+,包含 23,544 张图片,17 种情感分类。

论文链接
https://www.paperweekly.site/papers/1727
数据集链接
http://affect.media.mit.edu/share-data.php

Netizen-Style Commenting on Fashion Photos: Dataset and Diversity Measures
@jamiechoi 推荐
Image Captioning

本文研究的问题是根据图片生成网民评论,提出了一个大规模服装数据集——NetiLook,其中包含源自 11,034 位 Lookbook 用户的 355,205 张图片和 500 万条评论。此外,论文还提出了三种衡量多样性的方法。

论文链接
https://www.paperweekly.site/papers/1679
数据集链接
http://affect.media.mit.edu/share-data.php

// 机器学习 //

Discriminative Label Consistent Domain Adaptation
@jindongwang 推荐
Domain Adaptation

本文是一篇比较新的 domain adaptation 文章,里面有二十几种方法的结果,非常值得借鉴。

论文链接
https://www.paperweekly.site/papers/1703

Efficient Neural Architecture Search via Parameter Sharing
@Synced 推荐
Neural Network Architectures

本文提出超越神经架构搜索(NAS)的高效神经架构搜索(ENAS),这是一种经济的自动化模型设计方法,通过强制所有子模型共享权重从而提升了 NAS 的效率,克服了 NAS 算力成本巨大且耗时的缺陷,GPU 运算时间缩短了 1000 倍以上。

在 Penn Treebank 数据集上,ENAS 实现了 55.8 的测试困惑度;在 CIFAR-10 数据集上,其测试误差达到了 2.89%,与 NASNet 不相上下(2.65% 的测试误差)。

论文链接
https://www.paperweekly.site/papers/1678

The Case for Learned Index Structures
@chenliang 推荐
Database

本文创造性地将数据库索引视为可学习的对象,将不同的索引结构对应成不同的机器学习问题。比如,将索引一段排序内容视为 regression 问题,将 hash 解决的数据存在与否问题视为 classification 问题。

虽然目前主要考虑了 read-only 的解决方案,但仍有开辟新研究领域的潜力。

论文链接
https://www.paperweekly.site/papers/1683

Predicting Tomorrow’s Mood, Health, and Stress Level using Personalized Multitask Learning and Domain Adaptation
@sunlightll 推荐
Affective Computing

本文结合了多任务学习和领域自适应方法,个性化地对个人第二天的心情、健康和压力等级进行预测。

过往的方法通常准确率较低,大部分是解决心情识别的问题,很少做心情预测,对心情识别只是二值分析,不区分程度。对每个人都采用统一的模型分析,不针对个人进行模型的调整。

本文利用用户的生理指标,行为和天气等信息训练 DNN 和 GP 来同时对用户第二天的心情、健康和压力进行预测。在 DNN 中运用多任务学习机制,对每个人进行建模,在 GP 中运用领域自适应机制,对每个人的模型进行调整。

论文链接
https://www.paperweekly.site/papers/1721

Fast-Slow Recurrent Neural Networks
@sylar 推荐
Sequential Modeling

NIPS 2017 录用论文,本文解决的是不同 timescale 的序列输入问题,适用场景包括语音、推荐 session 中的兴趣捕捉等。

论文链接
https://www.paperweekly.site/papers/1726

原文发布时间为:2018-03-9
本文作者:让你更懂AI的
本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
9月前
|
存储 缓存 数据可视化
CPU缓存读写以及一致性问题,你大学课堂睡过去的现在再温习下,绝对受益颇多
CPU缓存读写以及一致性问题,你大学课堂睡过去的现在再温习下,绝对受益颇多
|
10月前
|
机器学习/深度学习 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(1)
带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(1)
|
10月前
|
机器学习/深度学习
带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(4)
带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(4)
|
10月前
|
机器学习/深度学习 智能设计 自然语言处理
带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(7)
带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(7)
100 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述
30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述
108 0
|
11月前
|
存储 机器学习/深度学习 人工智能
清华最新「持续学习」综述,32页详述持续学习理论、方法与应用综述
清华最新「持续学习」综述,32页详述持续学习理论、方法与应用综述
224 0
清华最新「持续学习」综述,32页详述持续学习理论、方法与应用综述
|
自然语言处理 测试技术 开发工具
Google开源ToTTo数据集,你的模型还「撑」得住吗?
近日,Google研究人员提出一个大型从表转换到文本的英文数据集,已经在Git上开源。该数据集不仅提供了一个可以受控的句子生成任务,还提供了一个基于迭代语句修订的数据注释过程。实验结果证明,ToTTo可以作为有用且高效的数据集,用来帮助其他研究者建模研究,以及开发可以更好地检测模型改进的评估指标。
312 0
Google开源ToTTo数据集,你的模型还「撑」得住吗?
|
量子技术
95后Nature狂魔曹原达成7连杀,一周发两篇Nature,每次都是枯燥的感觉(二)
「石墨烯驾驭者」曹原又发Nature了!7天内两篇,截至目前,他已经发了7篇Nature论文。对于这个科研「走花路」的年轻学者除了佩服,还有祝福,祝他:仰望星空,一路坦途!
95后Nature狂魔曹原达成7连杀,一周发两篇Nature,每次都是枯燥的感觉(二)
95后Nature狂魔曹原达成7连杀,一周发两篇Nature,每次都是枯燥的感觉(一)
「石墨烯驾驭者」曹原又发Nature了!7天内两篇,截至目前,他已经发了7篇Nature论文。对于这个科研「走花路」的年轻学者除了佩服,还有祝福,祝他:仰望星空,一路坦途!
142 0
95后Nature狂魔曹原达成7连杀,一周发两篇Nature,每次都是枯燥的感觉(一)
|
机器学习/深度学习 人工智能 分布式计算
如何科学交换信息?这篇ICML论文教你如何降低95%的通讯成本
随着深度模型越来越强大,它的通讯成本和需要的算力也急剧增长。因此,设计一个高效的分布式训练框架非常重要。那么什么是分布式计算,它又是怎样利用多个工作站加速训练呢?在本文中,我们将概述分布式计算的核心概念,并讨论一篇优秀的 ICML 2019 论文,该论文提出一种压缩梯度算法,可以将通讯成本降低 95%。
177 0
如何科学交换信息?这篇ICML论文教你如何降低95%的通讯成本