腾讯AI Lab第三次参加NIPS 有20篇论文入选

2018-10-25 16:52:07|

来源：雷锋网

被誉为神经计算和机器学习领域两大顶级会议之一的 NIPS 于近日揭晓收录论文名单，此次为第 32 届会议，将于 12 月 3 日至 8 日在加拿大蒙特利尔举办。

腾讯 AI Lab 第三次参加 NIPS，共有 20 篇论文入选，其中 2 篇被选为亮点论文(Spotlight)，涵盖迁移学习、模仿学习、半监督学习等多个研究主题，去年我们入选论文 8 篇，含 1 篇口头报告(Oral)。

此外，在今年的多个顶级学术会议中，腾讯 AI Lab 也入选多篇论文，位居国内企业前列，包括计算机视觉领域顶会 CVPR(21 篇)和 ECCV(19 篇)、机器学习领域顶会 ICML(16 篇)、NLP 领域顶会 EMNLP(16 篇)，以及语音领域顶会 Interspeech(8 篇)等。

我们将在下文一一解析本次腾讯 AI Lab 入选论文，也邀请大家在 NIPS 的现场跟我们进一步交流与讨论。

NIPS 2018

SPIDER-SFO

NIPS 2018

新提出的模型结构及其训练连接如上图所示。该模型由一个语句定位器和一个描述生成器组成。在训练过程中，模型可使用视频及其所有的事件描述。首先语句定位器会使用视频和其中一个事件描述来获得一个时间片段预测，然后描述生成器会使用这个时间片段来生成一个描述语句。

8. 基于可配置熵约束的半监督学习

Semi-Supervised Learning with Declaratively Specified Entropy Constraints

论文地址：https://arxiv.org/abs/1804.09238

这项研究由卡耐基梅隆大学(CMU)与腾讯 AI Lab 合作完成，提出了一种新的声明式列举规则的半监督学习的方法，可用于定制化半监督学习。这种方法可以组合多个半监督学习策略，同时可以结合多个协议(agreement)约束和熵正则化(entropic regularization)约束。此外，这种方法还可以用于模拟其它常见的模型，比如联合训练和针对全新域的启发式方法。除了表征单个的半监督学习启发式方法，研究者还表明可以使用贝叶斯优化将多种启发式方法组合到一起。在多个数据集上的实验结果表明这种方法能稳定地优于其它方法，并在一个较困难的关系抽取任务上得到了当前最佳的结果。

NIPS 2018

新提出的去卷积网络的架构，其中通过广义低秩近(GLRA)使用大量模糊核(blur kernel)的可分离过滤器来初始化第 1 层和第 3 层的参数，并使用为每个模糊核估计的 M 来固定第 2 个卷积核中的参数。另外还堆叠了额外的 3 个卷积层来去除伪影。

10. 超越二次指派模型：图匹配形式化的一个推广

Generalizing Graph Matching beyond Quadratic Assignment Model

这项研究由腾讯 AI Lab、上海交通大学、美国亚利桑那州立大学等合作完成。图匹配在过去几十年间一直受到持续观注，该问题往往可以被形式化成一个二阶指派问题。研究者在本文中展示：通过引入一系列在本文中被称为可分离的函数，并调整近似控制参数，可以在连续域中对离散的图匹配问题进行渐进的近似。研究者对该近似模型的全局最优解性质进行了研究，并进一步设计了凸/凹性质保持下的扩展算法，而该类似策略在传统 Lawler 二次指派模型上亦被广泛采用。从理论上，研究者进一步论证了所提出的框架在为图匹配新算法与技术设计带来的巨大潜力。最后，通过两个具体的可分离函数形式，研究者设计了相关求解算法，并在公开数据集上进行了验证。

11. 基于蒸馏 Wasserstein 学习的单词嵌入与主题建模

Distilled Wasserstein Learning for Word Embedding and Topic Modeling

论文地址：https://arxiv.org/abs/1809.04705

这项研究由 InfiniaML, Inc. 和美国杜克大学主导，与腾讯 AI Lab 合作完成。本文提出了一种具有蒸馏机制的 Wasserstein 学习方法，实现了单词嵌入与文本主题的联合学习。该方法的依据在于不同主题单词分布的 Wasserstein 距离往往是建立在单词嵌入的欧式距离的基础之上的。因此，该方法采用了一个统一的框架用以学习主题模型对应的单词分布，单词分布之间的最优传输，以及相应的单词嵌入模型。在学习主题模型时，研究者利用模型蒸馏的方法平滑距离矩阵，用以更新主题模型和计算主题之间的最优传输。这种蒸馏机制为下一步单词嵌入的更新提供了具有鲁棒性的指导，改进了学习过程的收敛性。针对采用疾病和手术 ICD 编码的病人入院记录，研究者的方法在构建疾病相关性网络，死亡率预测，和治疗方案推荐等应用上取得了比现有方法更好的结果。

NIPS 2018

上图展示了新提出的往复式学习算法总览。该算法会首先在前向过程中计算给定训练样本的分类分数，然后在后向过程中通过取该分类分数相对该样本的偏导数来得到显著性响应图。之后再将这个响应图作为正则化项与分类损失结合起来用于训练分类器。测试阶段不会生成响应图，而是由分类器直接预测目标位置。

13. 基于学习的多任务学习框架 L2MT

Learning to Multitask

论文地址：https://arxiv.org/abs/1805.07541

这项研究由香港科技大学与腾讯 AI Lab 合作完成，提出了学会多任务学习(L2MT)的框架，能够自动发掘对于一个多任务问题最优的多任务学习模型。为了实现这个目标，L2MT 充分利用了历史的多任务学习经验。每个多任务学习经验是一个三元组，包括一个由多个任务组成的多任务问题、一个多任务学习模型以及该模型在该多任务问题上的相对测试错误率。以历史的多任务学习经验作为训练集，L2MT 首先使用层式图神经网络(layerwise graph neural network)学习每个多任务问题里所有任务的特征表示。其次，L2MT 会学习一个估计函数来预测相对测试错误率，该估计函数基于多任务问题的特征表示以及多任务学习模型。如此一来，给定一个新的多任务问题，通过最小化该估计函数(等价于最小化相对测试错误率)可以确定一个合适的多任务模型。在标准数据集上的实验证明了 L2MT 的有效性。

NIPS 2018

可判别式通道剪枝(DCP)示意图

15. M-Walk: 图游走的蒙特卡洛树状搜索学习方法

M-Walk: Learning to Walk in Graph with Monte Carlo Tree Search

论文地址：https://arxiv.org/abs/1802.04394

这项研究由微软研究院与腾讯 AI Lab 合作完成，提出了一种可用于知识图谱推理的蒙特卡洛树状搜索学习方法 M-Walk。在知识库完成等应用中，给定一个输入查询和一个源节点，学习在图中到达目标节点是一个很重要的研究问题。这个问题可通过一个已知的状态转移模型而形式化为一个强化学习问题。为了克服奖励稀疏的难题，研究者开发出了一种能在图中游走的智能体 M-Walk——由一个深度循环神经网络(RNN)和蒙特卡洛树搜索(MCTS)构成。RNN 会对状态(即游走过的路径的历史)进行编码，并将其分别映射成一个策略、一个状态值和状态-动作 Q 值。为了能使用稀疏奖励有效地训练该智能体，研究者将 MCTS 与这个神经网络策略结合到了一起，可以生成能产生更多积极奖励的轨迹。通过 Q 学习方法(其会通过参数共享来修改 RNN 策略)，神经网络能使用这些轨迹以一种离策略的方式得到改进。研究者提出的强化学习算法可以反复应用这一策略改进步骤，从而学习得到整个模型。在测试时间，MCTS 仍然会与神经策略结合起来预测目标节点。研究者在多个图游走基准上进行了实验，结果表明 M-Walk 能够学会比其它基于强化学习的方法(主要基于策略梯度)更好的策略。M-Walk 的表现也优于传统的知识库完成基准。

NIPS 2018

耦合变分贝叶斯算法

17. 常数迭代复杂度的随机经验误差最小化方法

Stochastic Primal-Dual Method for Empirical Risk Minimization with O(1) Per-Iteration Complexity

这项研究由香港中文大学、腾讯 AI Lab、加州大学戴维斯分校与罗切斯特大学合作完成，提出了一种可用于快速求解基于广义线性模型的经验误差最小化问题的方法。该方法的特点是每轮迭代只需要 O(1) 的常数计算量，与问题的维度以及数据的大小无关。研究者还发展了该方法的一种方差减小的变种，在强凸条件下可以证明它具有线性收敛性。研究者使用 logistic 损失函数进行了求解分类问题的数值实验，结果表明新方法在高维问题上的收敛速度优于 SGD、SVRG、SAGA 等经典算法。

NIPS 2018

使用了方差缩减的 SPD1

18. 方差缩减的随机期望最大化算法

Stochastic Expectation Maximization with Variance Reduction

论文地址：https://ml.cs.tsinghua.edu.cn/~jianfei/semvr-nips2018.pdf

这项研究由清华大学主导完成，腾讯 AI Lab 和牛津大学也有参与。论文提出了一个受方差缩减的随机梯度下降算法启发的基于方差缩减的随机 EM(sEM-vr)算法。研究表明 sEM-vr 具备和批 EM 相同的指数收敛速率，且 sEM-vr 只需要常数步长，从而能降低调参的负担。研究者在高斯混合模型和 PLSA 上比较了 sEM-vr 和批处理 EM、随机 EM 及其它算法，结果表明 sEM-vr 比其它算法收敛明显更快。该方法在对训练精度要求较高时能显著提升随机 EM 算法的收敛速度。

19. 通信有效分布式优化的稀疏梯度方法

Gradient Sparsification for Communication-Efficient Distributed Optimization

论文地址：https://arxiv.org/abs/1710.09854

这项研究由宾夕法尼亚大学、腾讯 AI Lab、芝加哥大学与罗切斯特大学合作完成，提出了一种可用于提高大规模分布式机器学习模型训练的通信速度的方法。现代大规模机器学习一般使用分布式环境下的随机优化算法，传播梯度的通信成本是其中一大重要瓶颈。为了降低通信成本，研究者提出了一种基于凸优化的方法来减小编码长度，并使用了一些简单快速的近似算法来有效求解最优的稀疏化方法，该方法能提供基于稀疏程度的理论保证。另外，研究者也在 L2 正则化 logistic 回归、支持向量机和卷积神经网络等凸模型和非凸模型上验证对新提出的算法进行了验证。

20. 去中心化的压缩算法

Decentralization Meets Quantization

论文地址：https://arxiv.org/abs/1803.06443

这项研究由罗彻斯特大学、苏黎世联邦理工学院与腾讯 AI Lab 合作完成，提出了两种适用于去中心化网络的压缩方法(外推压缩和差异压缩)。对于大规模并行计算，去中心化的网络设计和传输信息的压缩对于解决网络延时十分有效。然而，与中心化的并行计算不同，理论分析表明，直接将去中心化网络与压缩算法结合将会造成训练结果不收敛。研究者为解决该问题而提出的两种压缩方法能达到与中心化压缩算法相同的运算效率。研究者也实验了这两种算法，结果表明它们大幅优于只用去中心化网络或只用压缩的算法。

NIPS 2018

DCD-PSGD：差异压缩去中心化并行随机梯度下降算法

一分钟了解 NIPS

NIPS 全称为 Annual Conference and Workshop on Neural Information Processing Systems，于 1986 年在由加州理工学院和贝尔实验室组织的 Snowbird 神经网络计算年度闭门论坛上首次提出。会议固定在每年 12 月举行。今年是第 32 届，将于 12 月 3 日到 8 日在加拿大蒙特利尔举办。

计算机学科由于成果更新迅速，更愿意通过会议优先发表成果，因此该类顶级会议大多比期刊更具权威性与影响力。NIPS 和 ICML 是机器学习领域最受认可的两大顶会，是中国计算机学会 CCF 推荐的 A 类会议及 Google 学术指标前五名。(见如下)

NIPS 2018