欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
《自然》杂志:新型冠状病毒的研究论文动态梦舞鞋

《自然》杂志:新型冠状病毒的研究论文动态

《自然》杂志刚刚在这最新的一期上,刊登了题为《中国冠状病毒:已经发表了几篇论文?》(China coronavirus: how many papers have been published?)的专题评论文章。这场发生在中国的新型冠状病毒的疫情,惊动了整个中国,也惊动了全球的科学界。随着全球研究人员对疫情的反应,正式发表研究论文和预印本论文每天都在出现。在过去的20天里,随着科学家们急于想了解这种病原体及其传播方式,已经发表了50多篇有关新型中国冠状病毒的英文研究论文。这种被称为2019-nCoV的病毒会导致严重的呼吸道疾病,迄今为止已在中国感染了7,700多人,并造成至少170人死亡,它也已扩散到其他15个国家。不断升级的爆发促使人们对冠状病毒进行了一系列研究活动,对科学来说是一项新的事物与挑战。截至1月30日,至少已发表了54篇有关冠状病毒的英文论文,其中有超过一半的论文是在过去7天中发表的,其中未包括中文期刊的中文研究论文。有的论文评计了病毒传播的方式、速度或潜伏期的长短,被病毒感染后人们会开始出现症状的时间;其它研究注重于病毒的结构或基因组成,可用于识别药物靶标或开发疫苗的信息。研究人员通过在线平台发布了有关病毒的基因组数据,但我们的统计分析并未计算这些数据。在另一篇题为《中国冠状病毒:科学家们提出的六个问题》专题文章中,总结了当前科学界集中从下面六个方面对此正在进行紧张的探索。1. 病毒如何传播?这是爆发期间最紧迫的问题。已经证实,在确定了家庭之间的病例群以及从患者到医护人员的传播后,它在人与人之间传播。监测新病例的出现速度以及每种病例的症状开始的时间,需要揭示出病毒在人与人之间的传播容易程度以及爆发是否可能持续。在流行病学中,通常通过一个被称为R0的数字评估带病毒的人易于感染的人数。R0大于1意味着需要采取隔离措施等。世卫组织上周发布的估计R0为1.4-2.5。这样的评计值与2002-03初期爆发的SARS的R0以及2009年引起的新型H1N1流感毒株大流行的R0相似。但是高于中东地区爆发的呼吸综合症(MERS)病毒所估计的R0值。2. 感染者可以不显示症状然而传播病毒吗?另一个未解决的主要问题是没有症状的人是否能够感染他人,以及感染的程度如何。研究人员说,如果这种无症状病例很普遍并且这些人可以传播病毒,那么遏制其传播将更加困难。控制SARS病毒的关键是很少有无症状的情况。3. 病毒有多致命?在首批感染者中,肺炎的高发病率使许多研究人员担心武汉病毒特别有害。伦敦帝国理工学院的数学流行病学家尼尔·弗格森说:“现在对这种严重程度尚不完全了解,下结论还为时过早。”4. 病毒是从哪里来的?正在研究这种病毒起源于一种或多种身份不明的动物的理论。研究人员说,识别病毒的动物来源可以帮助控制当前的疫情并评估其威胁,并有可能预防未来的流行。基因测序表明武汉病毒与在蝙蝠中传播的冠状病毒有关,包括SARS及其近亲。 但是其他哺乳动物也可以传播这些病毒,SARS可能是由猫传播给人类的。研究人员认为,如果没有进一步的现场和实验室工作,就不会鉴定出该病毒的动物宿主。研究人员希望能对动物或环境资源进行基因检测会发现一些线索。5. 我们可以从病毒的遗传序列中学到什么?武汉冠状病毒的基因测序提供了其起源和传播的线索。已对在感染者中发现的20多个菌株的基因组进行了测序,并已公开提供。 华盛顿弗雷德·哈钦森癌症研究中心的进化遗传学家特雷弗·贝德福德(Trevor Bedford)说,这“非常了不起”,他正在分析这些序列的出现 。 他补充说:“人们在数据共享方面非常快速和出色。”贝德福德和其他遗传学家正在使用这些数据来确定该病毒何时出现,目前的估计指向2019年11月。贝德福德补充说,病毒序列可以识别出任何可能有助于该病毒从动物向人类跳跃的遗传改变。而且,如果人之间广泛传播,遗传学家将寻找这种病毒已经获得进一步突变的迹象。6. 可以开发治疗冠状病毒的药物吗?尚无药物可有效治疗人的SARS或其他冠状病毒感染,也未获得任何旨在预防这些感染的疫苗的许可。科学家们正在研究新的疗法,通过阻断病毒锁存并用于感染细胞的人体细胞上的受体而起作用,以开发出可以对抗最新病毒的药物。

光之旅

94页论文综述卷积神经网络:从基础技术到研究前景

卷积神经网络(CNN)在计算机视觉领域已经取得了前所未有的巨大成功,但我们目前对其效果显著的原因还没有全面的理解。近日,约克大学电气工程与计算机科学系的 Isma Hadji 和 Richard P. Wildes 发表了论文《What Do We Understand About Convolutional Networks?》,对卷积网络的技术基础、组成模块、当前现状和研究前景进行了梳理,介绍了我们当前对 CNN 的理解。机器之心对本论文进行了摘要式的编译,更详细的信息请参阅原论文及其中索引的相关文献。文章选自arXiv,机器之心编译。论文地址:https://arxiv.org/abs/1803.088341 引言1.1 动机过去几年来,计算机视觉研究主要集中在卷积神经网络(常简称为 ConvNet 或 CNN)上。这些工作已经在广泛的分类和回归任务上实现了新的当前最佳表现。相对而言,尽管这些方法的历史可以追溯到多年前,但对这些系统得到出色结果的方式的理论理解还很滞后。事实上,当前计算机视觉领域的很多成果都是将 CNN 当作黑箱使用,这种做法是有效的,但其有效的原因却非常模糊不清,这严重满足不了科学研究的要求。尤其是这两个可以互补的问题:(1)在被学习的方面(比如卷积核),究竟被学习的是什么?(2)在架构设计方面(比如层的数量、核的数量、池化策略、非线性的选择),为什么某些选择优于另一些选择?这些问题的答案不仅有利于提升我们对 CNN 的科学理解,而且还能提升它们的实用性。此外,目前实现 CNN 的方法需要大量训练数据,而且设计决策对结果表现有很大的影响。更深度的理论理解应该能减轻对数据驱动的设计的依赖。尽管已有实证研究调查了所实现的网络的运行方式,但到目前为止,这些结果很大程度上还局限在内部处理过程的可视化上,目的是为了理解 CNN 中不同层中发生的情况。1.2 目标针对上述情况,本报告将概述研究者提出的最突出的使用多层卷积架构的方法。要重点指出的是,本报告将通过概述不同的方法来讨论典型卷积网络的各种组件,并将介绍它们的设计决策所基于的生物学发现和/或合理的理论基础。此外,本报告还将概述通过可视化和实证研究来理解 CNN 的不同尝试。本报告的最终目标是阐释 CNN 架构中涉及的每一个处理层的作用,汇集我们当前对 CNN 的理解以及说明仍待解决的问题。1.3 报告提纲本报告的结构如下:本章给出了回顾我们对卷积网络的理解的动机。第 2 章将描述各种多层网络并给出计算机视觉应用中使用的最成功的架构。第 3 章将更具体地关注典型卷积网络的每种构造模块,并将从生物学和理论两个角度讨论不同组件的设计。最后,第 4 章将会讨论 CNN 设计的当前趋势以及理解 CNN 的工作,并且还将重点说明仍然存在的一些关键短板。2 多层网络总的来说,本章将简要概述计算机视觉领域中所用的最突出的多层架构。需要指出,尽管本章涵盖了文献中最重要的贡献,但却不会对这些架构进行全面概述,因为其它地方已经存在这样的概述了(比如 [17, 56, 90])。相反,本章的目的是为本报告的剩余部分设定讨论基础,以便我们详细展示和讨论当前对用于视觉信息处理的卷积网络的理解。2.1 多层架构在近来基于深度学习的网络取得成功之前,最先进的用于识别的计算机视觉系统依赖于两个分离但又互补步骤。第一步是通过一组人工设计的操作(比如与基本集的卷积、局部或全局编码方法)将输入数据变换成合适的形式。对输入的变换通常需要找到输入数据的一种紧凑和/或抽象的表征,同时还要根据当前任务注入一些不变量。这种变换的目标是以一种更容易被分类器分离的方式改变数据。其次,被变换的数据通常用于训练某些类型的分类器(比如支持向量机)来识别输入信号的内容。通常而言,任何分类器的表现都会受到所使用的变换方法的严重影响。多层学习架构为这一问题带来了不同的前景,这种架构提出不仅要学习分类器,而且要从数据中直接学习所需的变换操作。这种形式的学习通常被称为「表征学习」,当应用在深度多层架构中时即被称为「深度学习」。多层架构可以定义为允许从输入数据的多层抽象中提取有用信息的计算模型。一般而言,多层架构的设计目标是在更高层凸显输入中的重要方面,同时能在遇到更不重要的变化时变得越来越稳健。大多数多层架构都是将带有交替的线性和非线性函数的简单构建模块堆叠在一起。多年以来,研究者已经提出了很多不同类型的多层架构,本章将会覆盖计算机视觉应用中所采用的最为突出的此类架构。人工神经网络是其中的关注重点,因为这种架构的表现非常突出。为了简单起见,后面会直接将这类网络称为「神经网络」。2.1.1 神经网络典型的神经网络由一个输入层、一个输出层和多个隐藏层构成,其中每一层都包含多个单元。图 2.1:典型神经网络架构示意图,图来自 [17]自动编码器可以定义为由两个主要部分构成的多层神经网络。第一个部分是编码器,可以将输入数据变换成特征向量;第二个部分是解码器,可将生成的特征向量映射回输入空间。图 2.2:典型自动编码器网络的结构,图来自 [17]2.1.2 循环神经网络当谈到依赖于序列输入的任务时,循环神经网络(RNN)是最成功的多层架构之一。RNN 可被视为一种特殊类型的神经网络,其中每个隐藏单元的输入时其当前时间步骤观察到的数据和其前一个时间步骤的状态。图 2.3:标准循环神经网络的运算的示意图。每个 RNN 单元的输入都是当前时间步骤的新输入和前一个时间步骤的状态;然后根据计算得到新输出,这个输出又可被馈送到多层 RNN 的下一层进行处理。图 2.4:典型 LSTM 单元示意图。该单元的输入是当前时间的输入和前一时间的输入,然后它会返回一个输出并将其馈送给下一时间。LSTM 单元的最终输出由输入门、输出门和记忆单元状态控制。图来自 [33]2.1.3 卷积网络卷积网络(CNN)是一类尤其适合计算机视觉应用的神经网络,因为它们能使用局部操作对表征进行分层抽象。有两大关键的设计思想推动了卷积架构在计算机视觉领域的成功。第一,CNN 利用了图像的 2D 结构,并且相邻区域内的像素通常是高度相关的。因此,CNN 就无需使用所有像素单元之间的一对一连接(大多数神经网络都会这么做),而可以使用分组的局部连接。第二,CNN 架构依赖于特征共享,因此每个通道(即输出特征图)是在所有位置使用同一个过滤器进行卷积而生成的。图 2.5:标准卷积网络的结构的示意图,图来自 [93]图 2.6:Neocognitron 的结构示意图,图来自 [49]2.1.4 生成对抗网络典型的生成对抗网络(GAN)由两个互相竞争的模块或子网络构成,即:生成器网络和鉴别器网络。图 2.7:生成对抗网络的一般结构的示意图2.1.5 多层网络的训练如前面讨论的一样,多种多层架构的成功都很大程度上取决于它们的学习过程的成功。其训练过程通常都基于使用梯度下降的误差的反向传播。由于使用简单,梯度下降在训练多层架构上有广泛的应用。2.1.6 简单说说迁移学习使用多层架构提取的特征在多种不同数据集和任务上的适用性可以归功于它们的分层性质,表征会在这样的结构中从简单和局部向抽象和全局发展。因此,在其层次结构中的低层级提取的特征往往是多种不同任务共有的特征,因此使得多层结构更容易实现迁移学习。2.2 空间卷积网络理论上而言,卷积网络可以应用于任意维度的数据。它们的二维实例非常适用于单张图像的结构,因此在计算机视觉领域得到了相当大的关注。有了大规模数据集和强大的计算机来进行训练之后,CNN 近来在多种不同任务上的应用都出现了迅猛增长。本节将介绍为原来的 LeNet 引入了相对新颖的组件的比较突出的 2D CNN 架构。2.2.1 CNN 近期发展中的关键架构图 2.8:AlexNet 架构。需要指出,虽然从图上看这是一种有两个流的架构,但实际上这是一种单流的架构,这张图只是说明 AlexNet 在 2 个不同 GPU 上并行训练的情况。图来自 [88]图 2.9:GoogLeNet 架构。(a)典型的 inception 模块,展示了顺序和并行执行的操作。(b)由层叠的许多 inception 模块构成的典型 inception 架构的示意图。图来自 [138]图 2.10:ResNet 架构。(a)残差模块。(b)由层叠的许多残差模块构成的典型 ResNet 架构示意图。图来自 [64]图 2.11:DenseNet 架构。(a)dense 模块。(b)(b)由层叠的许多 dense 模块构成的典型 DenseNet 架构的示意图。图来自 [72]2.2.2 实现 CNN 的不变性使用 CNN 的一大难题是需要非常大的数据集来学习所有的基本参数。甚至拥有超过 100 万张图像的 ImageNet 等大规模数据集在训练特定的深度架构时仍然被认为太小。满足这种大数据集要求的一种方法是人工增强数据集,具体做法包括对图像进行随机翻转、旋转和抖动(jittering)等。这些增强方法的一大优势是能让所得到的网络在面对各种变换时能更好地保持不变。2.2.3 实现 CNN 的定位除了识别物体等简单的分类任务,CNN 近来也在需要精准定位的任务上表现出色,比如形义分割和目标检测。2.3 时空卷积网络使用 CNN 为各种基于图像的应用带来了显著的性能提升,也催生了研究者将 2D 空间 CNN 扩展到视频分析的 3D 时空 CNN 上的兴趣。一般而言,文献中提出的各种时空架构都只是试图将空间域 (x,y) 的 2D 架构扩展到时间域 (x, y, t) 中。在基于训练的时空 CNN 领域存在 3 种比较突出的不同架构设计决策:基于 LSTM 的 CNN、3D CNN 和 Two-Stream CNN。2.3.1 基于 LSTM 的时空 CNN基于 LSTM 的时空 CNN 是将 2D 网络扩展成能处理时空数据的一些早期尝试。它们的操作可以总结成图 2.16 所示的三个步骤。第一步,使用一个 2D 网络处理每一帧,并从这些 2D 网络的最后一层提取出特征向量。第二步,将这些来自不同时间步骤的特征用作 LSTM 的输入,得到时间上的结果。第三步,再对这些结果求平均或线性组合,然后再传递给一个 softmax 分类器以得到最终预测。2.3.2 3D CNN这种突出的时空网络是将 2D CNN 最直接地泛化到图像时空域中。它直接处理 RGB 图像的时间流,并通过应用所学习到的 3D 卷积过滤器来处理这些图像。2.3.3 Two-Stream CNN这种类型的时空架构依赖于一种双流式(two-stream)的设计。标准的双流式架构是采用两个并行通路——一个用于处理外观,另一个用于处理运动;这种方法类似于生物视觉系统研究中的双流式假设。2.4 整体讨论需要重点指出的是,尽管这些网络在很多计算机视觉应用上都实现了很有竞争力的结果,但它们的主要缺点仍然存在:对所学习到的表征的确切本质的理解很有限、依赖于大规模数据训练集、缺乏支持准确的表现边界的能力、网络超参数选择不清晰。3 理解 CNN 的构建模块鉴于 CNN 领域存在大量悬而未决的问题,本章将介绍典型卷积网络中每种处理层的作用和意义。为此本章将概述在解决这些问题上最突出的工作。尤其值得一提的是,我们将从理论和生物学两个角度来展示 CNN 组件的建模方式。每种组件的介绍后面都总结了我们当前的理解水平。3.1 卷积层卷积层可以说是 CNN 架构中最重要的步骤之一。基本而言,卷积是一种线性的、平移不变性的运算,其由在输入信号上执行局部加权的组合构成。根据所选择的权重集合(即所选择的点扩散函数(point spread function))的不同,也将揭示出输入信号的不同性质。在频率域中,与点扩散函数关联的是调制函数——说明了输入的频率组分通过缩放和相移进行调制的方式。因此,选择合适的核(kernel)对获取输入信号中所包含的最显著和最重要的信息而言至关重要,这能让模型对该信号的内容做出更好的推断。本节将讨论一些实现这个核选择步骤的不同方法。3.2 整流多层网络通常是高度非线性的,而整流(rectification)则通常是将非线性引入模型的第一个处理阶段。整流是指将点方面的非线性(也被称为激活函数)应用到卷积层的输出上。这一术语借用自信号处理领域,其中整流是指将交流变成直流。这也是一个能从生物学和理论两方面都找到起因的处理步骤。计算神经科学家引入整流步骤的目的是寻找能最好地解释当前神经科学数据的合适模型。另一方面,机器学习研究者使用整流的目的是为了让模型能更快和更好地学习。有趣的是,这两个方面的研究者往往都认同这一点:他们不仅需要整流,而且还会殊途同归到同一种整流上。图 3.7:多层网络的文献中所使用的非线性整流函数3.3 归一化正如前面提到的,由于这些网络中存在级联的非线性运算,所以多层架构是高度非线性的。除了前一节讨论的整流非线性,归一化(normalization)是 CNN 架构中有重要作用的又一种非线性处理模块。CNN 中最广泛使用的归一化形式是所谓的 Divisive Normalization(DN,也被称为局部响应归一化)。本节将介绍归一化的作用并描述其纠正前两个处理模块(卷积和整流)的缺点的方式。同样,我们会从生物学和理论两个方面讨论归一化。3.4 池化不管是生物学启发的,还是纯粹基于学习的或完全人工设计的,几乎所有 CNN 模型都包含池化步骤。池化运算的目标是为位置和尺寸的改变带来一定程度的不变性以及在特征图内部和跨特征图聚合响应。与之前几节讨论的三种 CNN 模块类似,池化在生物学和理论研究上都具有支持。在 CNN 网络的这个处理层上,主要的争论点是池化函数的选择。使用最广泛的两种池化函数分别是平均池化和最大池化。本节将探索相关文献中描述的各种池化函数的优点和缺点。图 3.10:平均池化和最大池化在 Gabor 滤波后的图像上的比较。(a)展示了不同尺度的平均池化的效果,其中(a)中上面一行是应用于原始灰度值图像的结果,(a)中下面一行是应用于 Gabor 滤波后的图像上的结果。平均池化能得到灰度值图像的更平滑的版本,而稀疏的 Gabor 滤波后的图像则会褪色消散。相对而言,(b)给出了不同尺度的最大池化的效果,其中(b)中上面一行是应用于原始灰度值图像的结果,(b)中下面一行是应用于 Gabor 滤波后的图像上的结果。这里可以看到,最大池化会导致灰度值图像质量下降,而 Gabor 滤波后的图像中的稀疏边则会得到增强。图来自 [131]4 当前状态对 CNN 架构中各种组件的作用的论述凸显了卷积模块的重要性,这个模块很大程度上负责了在网络中获取最抽象的信息。相对而言,我们对这个处理模块的理解却最少,因为这需要最繁重的计算。本章将介绍在尝试理解不同的 CNN 层所学习的内容上的当前趋势。同时,我们还将重点说明这些趋势方面仍有待解决的问题。4.1 当前趋势尽管各种 CNN 模型仍继续在多种计算机视觉应用中进一步推进当前最佳的表现,但在理解这些系统的工作方式和如此有效的原因上的进展仍还有限。这个问题已经引起了很多研究者的兴趣,为此也涌现出了很多用于理解 CNN 的方法。一般而言,这些方法可以分成三个方向:对所学习到的过滤器和提取出的特征图进行可视化、受理解视觉皮层的生物学方法启发的 ablation study、通过向网络设计中引入分析原理来最小化学习过程。本节将简要概述其中每种方法。4.2 仍待解决的问题基于上述讨论,基于可视化的方法存在以下关键研究方向:首要的一点:开发使可视化评估更为客观的方法是非常重要的,可以通过引入评估所生成的可视化图像的质量和/或含义的指标来实现。另外,尽管看起来以网络为中心的可视化方法更有前景(因为它们在生成可视化结果上不依赖网络自身),但似乎也有必要标准化它们的评估流程。一种可能的解决方案是使用一个基准来为同样条件下训练的网络生成可视化结果。这样的标准化方法反过来也能实现基于指标的评估,而不是当前的解释性的分析。另一个发展方向是同时可视化多个单元以更好地理解处于研究中的表征的分布式方面,甚至同时还能遵循一种受控式方法。以下是基于 ablation study 的方法的潜在研究方向:使用共同的系统性组织的数据集,其中带有计算机视觉领域常见的不同难题(比如视角和光照变化),并且还必需有复杂度更大的类别(比如纹理、部件和目标上的复杂度)。事实上,近期已经出现了这样的数据集 [6]。在这样的数据集上使用 ablation study,加上对所得到的混淆矩阵的分析,可以确定 CNN 架构出错的模式,进而实现更好的理解。此外,对多个协同的 ablation 对模型表现的影响方式的系统性研究是很受关注的。这样的研究应该能延伸我们对独立单元的工作方式的理解。最后,这些受控方法是很有前景的未来研究方向;因为相比于完全基于学习的方法,这些方法能让我们对这些系统的运算和表征有更深入的理解。这些有趣的研究方向包括:逐步固定网络参数和分析对网络行为的影响。比如,一次固定一层的卷积核参数(基于当前已有的对该任务的先验知识),以分析所采用的核在每一层的适用性。这个渐进式的方法有望揭示学习的作用,而且也可用作最小化训练时间的初始化方法。类似地,可以通过分析输入信号的性质(比如信号中的常见内容)来研究网络架构本身的设计(比如层的数量或每层中过滤器的数量)。这种方法有助于让架构达到适宜应用的复杂度。最后,将受控方法用在网络实现上的同时可以对 CNN 的其它方面的作用进行系统性的研究,由于人们重点关注的所学习的参数,所以这方面得到的关注较少。比如,可以在大多数所学习的参数固定时,研究各种池化策略和残差连接的作用。

多信者显

深度学习论文TOP10,2019一季度研究进展大盘点

鱼羊 编译整理量子位 报道 | 公众号 QbitAI9012年已经悄悄过去了1/3。过去的100多天里,在深度学习领域,每天都有大量的新论文产生。所以深度学习研究在2019年开了怎样一个头呢?Open Data Science对第一季度的深度学习研究进行了盘点总结,推出了这一季度的十佳论文。一起来看看,TOP10都花落谁家吧。基于PyTorch Geometric的快速图像表征学习Fast Graph Representation Learning with PyTorch Geometric这篇论文的作者Matthias Fey和Jan E. Lenssen来自德国多特蒙德工业大学。他们的研究介绍了PyTorch Geometric——一个基于PyTorch的不规则结构化输入数据(如图形、点云和流形)深度学习库。除了通用的图形数据结构和处理方法,PyTorch Geometric还包含了各种最新发布的关系学习方法和3D数据处理方法。利用稀疏 GPU 加速,提供专用的 CUDA 内核,并为不同大小的输入样本引入高效的小批量处理,通过这些方法,PyTorch Geometric 实现了很高的数据吞吐量。该项目的代码可以在GitHub上找到:https://github.com/rusty1s/pytorch_geometric论文链接:https://arxiv.org/abs/1903.02428v2Mask Scoring R-CNN凭借比何恺明的Mask R-CNN更出色的效果,MS R-CNN拿下了计算机视觉顶会CVPR 2019的口头报告。在Mask R-CNN这样的模型中,实例分类的置信度被当作蒙版(mask)的质量衡量指标,但实际上蒙版的质量和分类的质量并没有很强的相关性。华中科技大学的这篇文章针对这个问题进行了研究,他们提出了一种新的打分方法:蒙版得分(mask score)。不仅仅直接依靠检测得到分类得分,Mask Scoring R-CNN模型还单独学习了一个针对蒙版的得分规则:MaskloU head。同时考虑分类得分和蒙版得分,MS R-CNN就能更加公正地评估算法质量,提高实例分割模型的性能。研究团队在COCO数据集上进行了实验,结果表明MS R-CNN在不同的基干网路上,AP提升始终在1.5%左右。这篇论文的作者是黄钊金,来自华中科技大学电信学院副教授王兴刚的团队,王兴刚也是这篇论文的作者之一。使用更少的标签生成高保真图像High-Fidelity Image Generation with Fewer Labels关于生成对抗网络(GAN)的最新研究表明,最新的模型虽然能生成高分辨率高保真的多样化自然图像,但真的实现起来要依赖大量的标记数据。在这篇论文中,来自谷歌大脑和苏黎世联邦理工学院的研究人员演示了如何从关于自我和半监督学习的最新研究进展中获益,在无监督ImageNet合成和条件设置中超越最先进的模型BigGAN。GCNv2:实时SLAM的高效通信预测GCNv2: Efficient Correspondence Prediction for Real-Time SLAM这篇论文的作者Jiexiong Tan等人都来自瑞典皇家理工学院。他们提出了一个基于深度学习的网络模型GCNv2,用于生成关键点和描述符。GCNv2是图卷积网络(GCN)的高效精简版。它采用二进制描述符向量作为ORB特性,因此它可以在ORB-SLAM等系统中轻松替换ORB。ALiPy:用于主动学习的Python工具包ALiPy: Active Learning in PythonALiPy是南京航空航天大学开源项目,是一个以自由度为主打的主动学习开源免费工具包。基于这个框架,用户可以方便地评估、比较、分析不同主动学习方法的性能。这个Python工具包支持7种不同的主动学习场景,同时还实现了25种主动学习算法供使用者调用。什么要选择主动学习方法呢?因为有监督的机器学习方法通常需要大量带标签的例子来进行模型训练。然而,在许多实际应用中,有大量的未标记数据,这大大增加了机器学习的成本。而主动学习能通过反复迭代选出最有价值的数据,只将有价值的数据加入训练集,从而降低了标记成本。这篇论文主要介绍了ALiPy的各个模块和使用方法。在工具箱中,学习框架的每个组件都有多个可选项,包括数据处理、主动选择、标签查询、结果可视化等。除了20多种最先进的主动学习算法的实现之外,ALiPy还支持用户轻松配置和实施自己的方法。该工具箱在Github上有详细记录和开源,可以通过PyPI轻松安装。DeepFashion2:用于服装图像检测、姿势估计、分割和重新识别的时尚数据集DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images程序员现在也有了了解时尚的新途径。DeepFashion2是一个综合时尚数据集,它拥有491k张流行服饰图片,既有卖家秀,也有买家秀。同时,801k种服装在图像中被标注了出来。这个数据集还提供了873k个商业-消费者图像对。DeepFashion2的训练集包含391k张图片,验证集有34k张图片,测试集则分到了67k张图片。所以,用它来完成衣服检测、姿势估计、分割和检索这样的任务再合适不过了。其实早在2017年,香港中文大学就开源了一个大型时尚数据集DeepFashion,其中包含80万张图片。然而,标记稀疏(仅4~8个)、没有针对单像素的蒙版这样的问题使得DeepFashion与现实场景产生了明显的差距。为了解决这些问题,DeepFashion2就诞生了。↓↓↓↓↓↓这回真的是标注清楚又全面了。星际争霸多智能体挑战The StarCraft Multi-Agent Challenge这篇论文的作者是俄罗斯-亚美尼亚大学的Mikayel Samvelyan和牛津大学的Tabish Rashid等人。星际争霸多智能体挑战(SMAC)基于即时战略游戏星际争霸Ⅱ,游戏中的每一个单位都能被单独控制,也就是说每一个单位都需要一个独立的智能体来操控。这是一个多智能体协作问题,在深层多智能体强化学习(RL)领域当中这类问题一向非常具有吸引力,因为它能与大量现实世界中的系统联系起来。单一智能体的强化学习可以依托于ALE和MuJoCo这样的标准化环境,但多智能体协同强化学习领域并没有类似的基准问题,这就导致了许多这方面的论文都像是一次性玩具。于是研究者们提出将星际争霸多智能体挑战(SMAC)作为填补这一空白的基准问题。为了达到最佳的实践效果,这篇论文提供了一系列对战图和测试建议,研究者们还开源了了一个深层多智能体强化学习框架,框架整合了最先进的强化学习算法。Dropout是SDR的特殊情况:更快,更准确的深度学习Dropout is a special case of the stochastic delta rule: faster and more accurate deep learningDropout是用来减轻深层神经网络过度参数化、深度学习过拟合和避免不良局部最小值的一种方法。它在每次更新之前根据带有概率p的Bernoulli随机变量移除隐藏单元,从而创造一个稀疏的网络架构。而Noah Frazier-Logue和Stephen José Hanson的研究表明Dropout是1990年发布的随机delta规则(SDR)的一个特例。SDR把神经网络中的每个权重重新定义为随机变量,并且为随机变量中的每个参数提供了更新规则。而Dropout就是一个具有带固定参数的二项随机变量的SDR特例。在论文中,作者还用SDR修改了DenseNet框架,并在标准基准(CIFAR-10和CIFAR-100)中进行了测试 ,结果说明SDR相对于二项分布的 Dropout 具有很大的优势。Lingvo:用于序列到序列模型的模块化和可扩展的框架Lingvo: a Molar and Scalable Framework for Sequence-to-Sequence ModelingLingvo是Google出品的一个Tensorflow框架,为协作深度学习研究提供完整的解决方案,侧重于序列到序列模型。Lingvo模型具有模块化、易扩展的特点,实验配置集中且高度可定制。该框架支持分布式训练和量化推理,包含大量实用程序,辅助函数和最新研究的现有实现。这篇论文概述了Lingvo的基础设计,介绍了框架的各个部分,同时还提供了展示框架功能的高级功能示例。新的自适应优化算法AdaBoundAdaptive Gradient Methods with Dynamic Bound of Learning RateAdaGrad、RMSProp和Adam之类的自适应优化方法通过调整学习率上的元素级缩放项实现了快速训练,但与SGD相比这些方法的泛化性能较差,甚至由于不稳定和极端的学习率而无法收敛。AdaBound是由北大、浙大等名校学霸提出的全新优化算法,是Adam和AMSGrad的新变体,兼具Adam和SGD两者之美,速度快且性能佳。该论文已经被ICLR 2019接收。— 完—

带灯

一周论文 | 词义的动态变迁

 本文由机器之心编辑,“机器之心”专注生产人工智能专业性内容,适合开发者和从业者阅读参考。点击右上角即刻关注。作者丨龚虹宇学校丨伊利诺伊大学香槟分校博士生研究方向丨语义、抽象概念表示和文本分类语言总是随着时间演变,词义不可避免地受到经济、政治或者文化因素的影响。一个很简单的例子就可以反映这种语言的动态演变现象:例如词语“丈夫”, 在古代汉语中指代成年或未成年的男性,而在现代汉语中则仅指已婚女子的配偶。特定的历史时期对于语义的理解非常重要,它提供了所谓的“时间线索”。来自迪士尼研究中心的 Robert Bamler 和 Stephan Mandt 的一篇近期工作就是关于如何表达动态语义。 在近年的自然语言研究中,“词向量”的概念和技术得到了快速的发展和应用。词向量是词的向量表示,向量的一些几何性质能够很好的反映词的句法或者句义。 例如,两个词向量的差值对应词的关系,词向量的距离则对应词的相关或者相似性。如图1所示,对于选定的一组词,将其向量投影到空间中,词义相近的词向量在向量空间中表现出了有趣的聚类现象。例如国家名词聚成一类,大学名称则形成另一个聚类。有很多工作包括 word2vec 和 GloVe 提出了不同词向量的训练方法,这些工作的基本思路却是一致的:句子中相邻的词对应的词向量的内积应该能反映语料的统计性质比如这些词共同出现的频率。在介绍动态词义表达之前,我们会花费一点篇幅快速介绍 Skip-Gram 这个静态词向量训练模型,然后这个模型会被拓展到动态应用场景中。Skip-Gram 模型是在 word2vec 中提出的,对于同时处在同一个上下文窗口的两个词,它将其向量的内积作为逻辑 sigmoid 函数的输入,从而估算两个词同时出现的概率。该模型通过不断调整词向量来最大化训练语料中相邻词出现的概率。▲ 图1:词向量的空间分布Bayesian Skip-Gram 模型是 skip-gram 模型的基于图模型的一个变种,它假设所有的词向量都是由潜在向量生成的。这是图 2 a) 所示的静态的模型,即每一个词都只对应一个固定的词向量,表达一种特定的语义。因为词义是随着时间而动态变化的,我们会很自然地想到用多个向量来表示词在不同时期的含义。因此,我们今天介绍的这篇文章提出将时间信息加入到 Bayesian Skip-Gram 模型中,通过建模潜在向量的时间变化,来捕获词向量随时间的迁移动态词义的训练语料是来自不同历史时期的文本的合集。在静态模型中,我们希望训练向量从而最大化训练语料的出现概率;动态模型的目标函数不仅包含语料的概率,而且包含了词向量的迁移概率。迁移概率是为了描述词义的动态变化。也就是说,词向量的训练是为了同时最大化训练语料的概率和词义变化的概率如图 2 b),假设训练语料来自 T 个不同时期,我们可以想象动态模型是有 T 个静态的 Bayesian Skip-Gram 模型组成,每一个静态模型都连向下一个静态模型,模拟语义从当前时刻向下一时刻的迁移。 ▲ 图2:Bayesian Skip-Gram 模型在提出动态图模型之后, 我们需要估计模型中的参数比如词向量的生成概率和迁移概率。这篇工作中提出了两种近似的估计算法:筛选算法和平滑算法。前者仅仅使用观测到的文档训练当前模型,而后者则会使用语料中的所有文档。动态模型能够对每一时期生成一组词向量,词向量的质量可以从以下三个方面进行评估: (1)词义准确:任一时期的词向量需要准确对应该时期下的词义。比如,“丈夫”的早期词模型应该和“男性”等词接近,而其后期此模型应该和“配偶”等更为相似。 (2)平滑迁移:因为语言经历的是一个缓慢的变化过程,因此词向量在向量空间中的变化轨迹是平滑而非突变的,“丈夫”一词在不同时期的语义有差别,但是都与”男性“这一概念相关。 (3)拓展性:训练的词向量将被用来估计测试语料的概率,好的词向量需要能从训练语料拓展到测试语料,给出较高的测试语料概率。 GoolgeNews 提供了大量带有时间标记的语料,这篇工作利用 1850 年到 2000 年之间的文档,利用上述介绍的动态模型训练了不同时期下的词向量。图 3 显示了“电脑”这一词向量在向量空间中的迁移,通过其相邻的词我们可以看出其词义的变化:它从早期跟“计算”,“机器“有关的概念迁移到了与”软件”和“文件”更为相关的概念。▲ 图3:“电脑”的词义变迁这期我们介绍的文章将静态的词向量的训练拓展到动态场景,建立了能够描述语言发展变化的图模型。更加深层次上, 这篇工作提供了动态建模的新思路,不仅仅是可以用于词义的动态建模,也可以应用到其他涉及时间序列的场景中。

畅游者

7篇ICLR论文,遍览联邦学习最新研究进展

机器之心分析师网络作者:仵冀颖编辑:H4O本篇提前看重点关注 ICLR 2020 中关于联邦学习(Federated Learning)的最新研究进展。2020 年的 ICLR 会议原计划于4 月 26 日至 4 月 30 日在埃塞俄比亚首都亚的斯亚贝巴举行,这本是首次在非洲举办的顶级人工智能国际会议,但受到疫情影响,ICLR 2020 被迫取消线下会议改为线上虚拟会议。今年的 ICLR 论文接受情况如下:共计接收 679 片文章,其中:poster-paper 共 523 篇、Spotlight-paper(焦点论文)共 107 篇、演讲 Talk 共 48 篇,另有被拒论文(reject-paper)共计 1907 篇,接受率为 26.48%。本篇提前看重点关注 ICLR 2020 中关于联邦学习(Federated Learning)的最新研究进展。联邦学习是一种在分布式网络中实现的客户端本地存储数据并训练局部模型、中央服务器汇聚各客户端上载数据后训练构建全局模型的分布式机器学习处理框架。联邦学习能够有效解决分布式网络中两方或多方数据使用实体(客户端)在不贡献出数据的情况下的数据共同使用问题,同时保证全局模型能够获得与数据集中式存储相同的建模效果。关于联邦学习,机器之心也有过相关的进展分析报道。在 ICLR 2020 的接受论文中,共有 7 篇文章与联邦学习相关,其中 2 篇为演讲 Talk的文章,5 篇为poster-paper。本文从中选择 3 篇进行分析,分别聚焦的是联邦学习的总体优化目标设置、全局模型构建方法以及数据特征对齐问题,具体为:Poster PaperFair Resource Allocation in Federated LearningDifferentially Private Meta-LearningDBA: Distributed Backdoor Attacks against Federated LearningGenerative Models for Effective ML on Private, Decentralized DatasetsFederated Adversarial Domain AdaptationTalkOn the Convergence of FedAvg on Non-IID DataFederated Learning with Matched Averaging一、Fair Resource Allocation in Federated Learning论文链接:https://arxiv.org/pdf/1905.10497v1.pdf联邦学习的目标是通过最小化经验风险函数,使得模型能够拟合由若干网络设备中收集到的数据。通常情况下,联邦学习网络中的设备数量很大,从数百个到数百万个不等。这种简单直接的拟合操作可能会造成最终拟合的模型适合于一些设备,而在另外一些设备中不适用的问题。此外,不同设备中的数据存在大小不同、分布特征不同等异质性问题。这篇文章所要探讨的问题就是:是否可以设计一种优化方法来确保联邦学习模型的性能(如准确度)公平地分布在各个设备之间?受无线网络公平资源分配工作的启发,本文提出了一种解决联邦学习中公平问题的优化目标算法 q-FFL(q-Fair Federated Learning)。q-FFL 通过引入 q 参数化的权重,实现了对不同设备损耗的重新加权计算,使得损耗较高的设备具有较高的相对权重,从而减小准确度分布方差,实现准确度更公平的分布。q-FFL 无需手工调整公平性约束,它构建的是一个灵活的框架,在该框架中可以根据所需的公平性自动调整目标。此外,本文提出了一种轻量级且可扩展的分布式 q-FFL 解决方法:q-FedAvg,该方法考虑了联邦学习架构的重要特征,例如通信效率和设备的低参与性等。方法描述经典联邦学习通常是最小化以下目标函数:其中,m 表示设备数量,F_k 是各个客户端的局部目标函数,p_k 为客户端对应的权重。局部目标函数的优化处理过程为:其中,n_k 为第 k 个客户端局部样本数据数量,可以令 p_k=n_k/n,n 为整个联邦学习网络的数据集中符合经验最小化目标的样本总数。传统方法通过以下方式实现全局目标最优化:每一轮选择概率与 n_k 成正比的设备子集执行这些本地更新方法通过在每个设备上本地运行可变数量的迭代的优化器(例如 SGD)来实现灵活高效的通信。经典联邦学习(FedAvg)的优化流程如下:FedAvg 的优化过程会引入不同设备之间的不公平性。例如,所学习的模型可能偏向具有数据量大的设备,或者偏向于(通常是对设备加权)经常使用的一组设备等等。为了讨论如何解决联邦学习框架的不公平性问题,作者首先定义了什么是联邦学习中的公平性。公平性定义:可以通过下面的方法衡量两个模型 w 和 w~的公平性,如果模型 w 在 m 个设备上的性能方差 {a_1,...,a_m} 小于模型 w~在 m 个设备上的性能方差,则认为模型 w 更公平,即从公平性定义的角度出发,解决 FedAvg 中存在的不公平性的问题的一个很直观的办法就是重新对目标进行加权,即将较高的权重分配给性能较差的设备,以减小模型的准确度分布方差。此外,重新加权的处理必须是动态完成的,因为设备的性能取决于所训练的模型,这是无法进行先验评估的。给定非负代价函数 F_k 和参数 q>0,定义 q-FFL 目标如下:其中 (F_k).^(q+1) 表示 F_k 的 q+1 次幂,q 为调整所希望施加的公平性的权重参数。根据公平性定义,较大的 q 意味着 q-FFL 的目标强调(赋予较大权重)具有较高局部经验损失的设备 F_k(w),从而减少训练准确度分布的方差以及保证公平性。当 q 足够大时,F_q(w) 就退化为经典的 min-max 问题,此时,性能最差(最大损耗)的设备将会控制主导目标。本文作者首先提出了一种公平但效率较低的方法 q-FedSGD,以说明在解决 q-FFL 问题时使用的主要技术,之后,通过考虑联邦学习的关键属性(例如本地更新方案),作者提供了一种更有效的解决方法 q-FedAvg。首先,q-FedSGD 是对经典的联合小批量 SGD(FedSGD)方法的扩展,其中使用动态步长替代了 FedSGD 中使用的常规固定步长。在 q-FedSGD 的每个步骤中,选择设备的一个子集,对于该子集中的每个设备 k,在当前迭代中计算其F_k 和 F_k 并将其传送到中央服务器,此信息用于调整权重,以收集整合来自每个设备的更新。具体算法如下:在经典联邦学习方法中,在设备本地使用局部随机解算器(而不是批处理)能够改进本地计算与通信方面的灵活性,例如最著名的 FedAvg。然而,简单地在使用 q-FFL 目标的 q-FedSGD 中引入局部随机结算器是不成立的。这是由于当 q>0 时,不能使用局部 SGD 计算 (F_k)^(q+1)。作者提出将 q-FedSGD 步骤中的局部函数的梯度F_k 替换为通过在设备 k 上本地运行 SGD 获得的局部更新矢量,从而实现基于 q-FFL 目标的 FedAvg,即 q-FedAvg。作者的详细分析如下:优化 F_k 和优化 (F_k)^(q+1) 是等价的。如果通过简单的平均来组合这些更新,类似于 FedAvg,它将优化(1)而不是(2)。类似于 q-FedSGD,本文使用由下式推导得到的权重组合本地更新。如果非负函数 f 具有常数 L 的 Lipchitz 梯度,则对于任意 q≥0 和任意点 w,可得到:左式计算得到的权重是 w 点位置处梯度的局部 Lipchitz 常数的上界在 q-FedAvg 的每个步骤中,选择设备的一个子集,对于该子集中的每个设备 k,在当前迭代中计算其局部更新向量并将局部更新向量传送到中央服务器,此信息用于调整权重,以收集整合来自每个设备的更新。具体算法如下:实验分析本文基于经典联邦学习的合成数据库和非合成数据库进行实验,实验中同时使用凸模型和非凸模型,在 TensorFlow 中实现所有代码,以一个服务器和 m 个设备模拟一个联邦学习网络。图 1 给出了在每个数据集的 5 个随机抽取的数据中平均的两个目标(q = 0 和 q> 0 的调整值)的最终测试准确度分布。虽然平均测试准确度保持一致,但 q> 0 的目标能够产生更集中(即更公平)的测试准确度分布,且方差较小。特别的,在保持大致相同的平均准确度的同时,q-FFL 将所有设备上的准确度方差平均降低了 45%。图 1. q-FFL 使得测试准确度分布更加公平使用本文提出的联邦学习框架需要解决一个问题:如何在 q-FFL 目标中调整 q,从而允许框架灵活选择 q 以实现减小准确度分布方差和提高平均准确度之间的权衡。通常,可以根据可获得的数据/应用程序和所需的公平性来调整此值。特别地,在实践中,一种合理的方法是并行运行具有多个 q 的算法(详见 q-FedAvg 的算法流程),以获得多个最终全局模型,然后通过验证数据性能(例如准确度)从中进行选择。在这个过程中,联邦学习网络中的每个设备不仅可以从此过程中选择一个最佳 q,还可以根据其验证数据选择特定于设备的模型。表 1 中显示了这种针对特定设备的策略的性能改进。在表 1 中给出的实验的训练过程中,会独立维护多个全局模型(对应于不同的 q)。尽管这增加了额外的本地计算和每轮的通信负载,但使用这种特定于设备的策略同时提升了最差 10% 准确度(Worst 10%)和最佳准确度(Best 10%)的设备准确度。图 2 给出 q-FFL 与均匀采样方案的准确度比较,在测试准确性方面 q-FFL 给出了更公平的解决方案。表 1. 同时运行多个 q 的 q-FFL 的效果图 2. q-FFL(q> 0)与均匀采样的准确度比较最后,作者对比了 q-FedSGD 和 q-FedAvg 的效率。在每个通信回合中,q-FedAvg 在每个所选设备上运行一个 epoch 的本地更新,而 q-FedSGD 则是基于本地训练数据运行梯度下降(SGD)。图 3 的结果显示,在大多数情况下使用 q-FedAvg 的本地更新方案收敛速度比 q-FedSGD 快。与 q-FedSGD 相比,在合成数据集上 q-FedAvg 收敛速度较慢,作者分析这可能是由于当存储在各个设备中的本地数据分布高度异构时,本地更新方案可能会造成本地模型与初始全局模型相距太远,进而影响收敛。图 3. 对于固定目标(即相同的 q),q-FedAvg(Algorithm 3),q-FedSGD(Algorithm 2)和 FedSGD 的收敛性文章小结在无线网络中公平资源分配策略的启发下,本文提出了一种联邦学习的优化目标 q-FFL,目的是鼓励在联邦学习中实现更公平的准确度分配,此外本文还提出了一种高效且可扩展的方法 q-FedAvg,q-FedAvg 适用于使用新优化目标的联邦学习优化框架。二、Federated Adversarial Domain Adaptation论文链接:https://arxiv.org/abs/1911.02054联邦学习是一种分散学习方法,它使多个客户机能够协作学习一个机器学习模型,同时将训练数据和模型参数保存在本地设备上。联邦学习提高了在分布式设备(如移动电话、物联网和可穿戴设备等)网络中进行机器学习的数据隐私性和效率。自提出联邦学习框架以来,研究人员陆续提出了很多模型/方法,包括更新机器学习模型的安全聚合方案、支持多客户端联邦学习的隐私保护协同训练模型等,但是这些方法大都忽略了以下事实:每个设备节点上的数据都是以非独立同分布(non-i.i.d)的方式收集的,因此节点之间存在域迁移的问题。例如,一台设备可能主要在室内拍摄照片,而另一台设备主要在室外拍摄照片。这种域迁移(domain shift)问题,造成使用联邦学习训练得到的模型很难推广到新设备。为了解决联邦学习中的 Non-IID 问题,一些方法引入联邦多任务学习,它为每个节点学习一个单独的模型,或者是提出隐私保护环境下的半监督联邦转移学习算法。这些算法一般采用的都是有监督/半监督的方式。无监督域适应(Unsupervised Domain Adaptation,UDA)的目的是将从标记的源域学习到的知识迁移到未标记的目标域中。经典 UDA 方法包括:基于差异的方法(discrepancy-based methods)、基于重构的 UDA 模型、基于对抗的方法等,例如可以通过对抗性训练,在源域和目标域之间调整基于 CNN 的特征提取/分类器。在联邦学习架构中,数据存储在各个客户端本地而不能共享,这就导致经典的 UDA 方法都不适用,因为这些方法需要访问标记的源数据和未标记的目标数据。本文主要解决的问题是,在联邦学习架构下,在没有用户监督的情况下,将知识从分散节点转移到具有不同数据域的新节点的问题,作者将该问题定义为:无监督联邦域适应(Unsupervised Federated Domain Adaptation,UFDA)。本文提出了一种解决 UFDA 问题的方法---联邦对抗域适应(Federated Adversarial Domain Adaptation,FADA)方法,该方法能够实现在不同的设备节点中学习到的表示与目标节点的数据分布相一致。FADA 是指:在联邦学习的架构中使用对抗性适应技术,通过在每个源节点上训练一个模型并通过源梯度(source gradients)的聚合来更新目标模型,同时保护数据隐私、减少域迁移。此外,本文还设计了一个动态注意力模型来应对联邦学习中不断变化的收敛速度,具体见图 1。图 1.(a)本文针对 UFDA 问题提出了 FADA,在 FADA 中,不同域之间的数据不可共享,分别在每个源域上训练模型,并使用动态注意力机制汇总它们的梯度以更新目标模型;(b)FADA 使用对抗域对齐(红线)和特征分离器(蓝线)来提取域不变特征。图 1(b)中提到 FADA 使用对抗域对齐和特征分离器来提取域不变特征。关于提取域不变特征的问题,主要是指深度神经网络能够在多个隐藏因素高度纠缠的情况下提取特征。学习分离表示有助于去除不相关和特定领域的特征,从而只对数据变化的相关因素建模。为此,最近的研究探索了利用生成性对抗网络(GANs)和变分自编码(VAEs)学习可解释表示以及领域不变特征。在 FADA 中引入了一种利用对抗性训练过程从领域特征中分离领域不变特征的方法。此外,通过引入最小化域不变特征和域特定特征之间的相互信息,以增强特征分离。方法介绍令 D_S 和 D_T 分别表示输入空间 X 上的源和目标分布,以及真实的标记函数 g:X→{0,1}。假设函数 h:X→{0,1},其误差为实地标记函数 g,h 在 D_s 上的风险记为:两个分布 D 和 D』之间的 H-散度定义为:其中 H 是输入空间 X 的假设类,A_H 表示 X 的子集的集合,这些子集是 H 中某些假设的支持。对称差空间 HH 定义为:⊕表示 XOR 操作。将在源和目标上实现最小风险的最优假设表示为:以及 h*的误差为:令 H 为 VC 维 d 的假设空间,D_S^和 D_T^为由 DS 和 DT 提取的大小为 m 的样本的经验分布。对于每个 h∈H,在样本选择上的概率至少为 1-δ:定义 UFDA 中源域和目标域分别为在联邦学习的域自适应系统中,D_S 分布在 N 个节点上,并且数据在训练过程中不可共享。经典的域自适应算法旨在最大程度地降低目标风险但是,在 UFDA 系统中,出于安全和隐私的原因,一个模型无法直接访问存储在不同节点上的数据。为了解决这个问题,本文提出为每个分布式源域学习单独的模型 h_S= {h_Si},目标假设 h_T 是 h_S 参数的集合。然后,可以得出以下误差范围:其中λ_i 是 D_Si 和 T 的混合物的最优假设风险,而 S则是大小为 Nm 的源样本的混合物。该误差范围证明了权重α和差异 d HH(D_S,D_T)在 UFDA 中的重要性,受此启发,本文提出了动态注意力模型来学习权重α和联合对抗性对齐,以最大程度地减少源域和目标域之间的差异。1、动态注意力机制在联邦学习的域自适应系统中,不同节点上的模型具有不同的收敛速度。此外,源域和目标域之间的域迁移是不同的,从而导致某些节点可能对目标域没有贡献甚至是负迁移。本文提出动态注意力机制,其原理是增加那些梯度对目标域有益的节点的权重,并限制那些梯度对目标域有害的节点的权重,利用差距统计数据来评估目标特征 f^t 在无监督聚类算法(K-Means)中的聚类程度,具体的,差距统计计算为:其中,C1,C2,...,Ck 为聚类,其中 Cr 表示聚类 r 中的观测指标,而 nr = | Cr |。直观上,较小的差距统计值表示要素分布具有较小的类内方差。通过两次连续迭代之间的差距统计量增益来测量每个源域的贡献:其中,p 表示训练步骤。该公式表示在建立目标模型之前和之后可以改进多少聚类。来自源域的梯度上的掩码定义为:2、联合对抗对齐在联邦学习框架中存在多个源域,并且数据以隐私保护的方式存储在本地,这意味着无法训练可以同时访问源域和目标域的单个模型。为了解决此问题,本文提出了联合对抗对齐,联合对抗对齐将优化分为两个独立的步骤:特定于域的局部特征提取器和全局鉴别器。(1)针对每个域,对应于 Di 训练一个本地特征提取器 Gi,以及针对 Dt 训练得到 Gt;(2)对于每个源-目标域对(Di,Dt),训练一个对抗性域标识符 DI 来以对抗性的方式对齐分布:首先训练 DI 以确定特征来自哪个域,然后训练生成器(Gi,Gt)来混淆 DI。需要注意的是,D 仅可访问 Gi 和 Gt 的输出向量,而不会违反 UFDA 设置。给定第 i 个源域数据 X^Si,目标数据 X^T,DI_s 的目标定义如下:在第二步中,L_advD 保持不变,但是 L_advG 更新以下目标:3、表征分离本文采用对抗性分离(Adversarial Disentanglement)来提取域不变特征。如图 1(b)所示,分离器 Di 将提取的特征分为两个分支。首先分别基于 f_di 和 f_ds 特征训练 K 路分类器 Ci 和 K 路类别标识符 CI_i 正确地预测具有交叉熵损失的标签。目标为:其中 f_di 和 f_ds 分别表示域不变和域特定特征。在下一步中,冻结类标识符 CI_i,仅训练特征分解器通过生成特定于域的特征 f_ds 来混淆类标识符 CI_i,如图 1 所示。这可以通过最小化预测类别分布的负熵损失来实现。目的如下:特征分离可以通过保留 f_di、消除 f_ds 来促进知识迁移。为了增强分离,最小化域不变特征和域特定特征之间的相互信息:尽管互信息是跨不同分布的关键度量,但互信息仅适用于离散变量。本文采用互信息神经估计器(Mutual Information Neural Estimator,MINE)利用神经网络来估计连续变量的互信息:为了避免计算积分,本文利用蒙特卡洛积分来计算估计值其中(p,q)从联合分布中采样,q』从边际分布中采样,T(p,q,θ)是由θ参数化的神经网络,用于估计 P 和 Q 之间的互信息。域不变和域特定的特征被转发给具有 L2 损失的重构器以重构原始特征,同时保持表征的完整性,如图 1(b)所示。可以通过调整 L2 丢失和互信息丢失的超参数来实现 L2 重建和互信息的平衡。4、优化本文模型以端到端的方式训练。使用随机梯度下降训练联邦对齐和表征分离组件。联合对抗性对准损失和表征分离损失与任务损失一起被最小化。详细的训练过程在算法 1 中给出:实验分析为了更好地探索模型中不同组成部分的有效性,本文提出了三种不同的剥离方法,包括:模型 I,具有动态关注度;模型 II,I +对抗性对齐;模型 III,II +表征分离。本文首先基于 Digit-Five 数据库进行实验。Digit-Five 是由五个数字识别基准数据库组成的集合,这五个数据库分别是:MNIST,合成数字,MNIST-M,SVHN 和 USPS。在本文实验中,轮流将一个域(来自于其中一个数据库)设置为目标域,将其余域设置为分布式源域,从而生成五项迁移任务。本文将 FADA 与流行的域适应基准模型进行比较,包括:域对抗神经网络(DANN),深度适应网络(DAN),自动域对齐层(AutoDIAL)和自适应批归一化(AdaBN)等。具体而言,DANN 通过梯度反转层将源域和目标域之间的域差异最小化。DAN 应用多内核 MMD 损失以在「再生核希尔伯特空间」中将源域与目标域对齐。AutoDIAL 在深层模型中引入了域对齐层,以将源特征分布和目标特征分布与参考分布进行匹配。AdaBN 应用批处理规范化层来促进源域和目标域之间的知识迁移。在进行基准实验时,本文分别使用原模型的作者提供的代码并修改原始设置以适合联邦域对抗域适应设置(即每个域都有自己的模型),用 f-DAN 和 f-DANN 表示。此外,为了说明 UFDA 难以通过单一模型访问所有源数据的困难,本文还执行了相应的多源域适应实验(共享源数据)。实验结果列于表 1。从表 1 的结果可以得出以下结论:(1)模型 III 的平均准确度达到 73.6%,明显优于基线模型;(2)模型 I 和模型 II 的结果证明了动态注意力和对抗性对准的有效性;(3)联合域适应显示的结果比多源域适应弱得多。表 1.「Digit-Five」数据库的准确度(%)为了进一步了解 FADA 的特征表示性能,图 2 给出了不同模型得到的特征表示的 t-SNE 嵌入。与 f-DANN 和 f-DAN 相比,FADA 得到的特征嵌入具有较小的类内方差和较大的类间方差,这表明 FADA 能够生成所需的特征嵌入并能够提取跨域的不变特征。图 2. 特征可视化:仅源特征的 t-SNE 图表 2 中给出了在 Office-Caltech10 数据集上的实验结果,该数据集包含 Office31 和 Caltech-256 数据集共享的 10 个常见类别,以及包含四个域:Caltech(C),这是从 Caltech-256 数据集采样的;Amazon(A),这是从 amazon.com 收集的图像;Webcam(W)和 DSLR(D),这是由网络摄像头以及办公环境下的数码单反相机拍摄的图像。由表 2 可以得出以下观察结论:(1)本文提出的 FADA 模型使用 AlexNet 可以达到 86.5%的准确度,使用 ResNet 可以达到 87.1%的准确度,优于基线模型。(2)当选择 C,D,W 作为目标域时,所有模型的性能都相似,但是当选择 A 作为目标域时,各个模型的性能都较差。这可能是由较大的域差异引起的,因为 A 中的图像是从 amazon.com 收集的,并且包含白色背景。表 2. Office-Caltech10 数据库的准确度(%)亚马逊评论(Amazon Review)数据集是专门应用于文本跨域情感分析的测试数据库,即确定评论的情绪是正面还是负面。该数据集包含来自 amazon.com 用户的针对四个流行商品类别的评论:书籍(B),DVD(D),电子产品(E)和厨房用具(K)。本文利用 400 维词袋表示法及完全连接的深度神经网络进行实验,实验结果见表 3。从表 3 结果中可以得出两个主要观察结论:(1)FADA 模型不仅对视觉任务有效,将其应用于语言任务也表现出了较好的性能。(2)从模型 I 和 II 的结果可以观察到动态注意力和联邦对抗的对齐方式对提高性能很有帮助。表 3.「Amazon Review」数据库的准确度(%)最后为了证明动态注意力的有效性,本文给出了消融(ablation)研究分析。表 4 给出了 Digit-Five,Office-Caltech10 和 Amazon Review 基准测试的结果。在没有应用动态注意力模型的情况下,大多数实验的性能都会下降,因此动态注意力模块对于 FADA 是非常重要的。使用动态注意力模型能够有效应对联邦学习中不断变化的收敛速度,即不同的源域具有自己的收敛速度的问题。另外,当特定域和目标域之间的域迁移较小时,它将增加特定域的权重,相反,则降低权重。表 4. 消融研究结果文章小结在本文中,作者定义了无监督联邦域适应(UFDA)问题,并给出了对 UFDA 的理论推广。此外,本文提出了一种称为-联邦对抗域适应(FADA)的联邦学习模型,通过动态注意力模式能够有效地将从分布式源域学到的知识迁移到未标记的目标域。三、Federated Learning with Matched Averaging论文链接:http://arxiv.org/abs/2002.06440联邦学习允许边缘设备协作学习共享模型,同时将训练数据保留在本地设备中,从而实现将模型训练与数据存储在云中的需求分离开来。本文针对卷积神经网络(CNN)和长短期记忆网络(LSTM)等现代神经网络结构的联邦学习问题,提出了一种联邦匹配平均(Federated Matched Averaging,FedMA)算法。FedMA 通过匹配和平均具有相似特征提取特征的隐藏元素(即卷积层的通道;LSTM 的隐藏状态;完全连接层的神经元等)以层的方式构建共享全局模型。经典联邦学习 FedAvg 的一个缺点是直接对模型参数进行加权平均,可能会对模型性能产生严重的不利影响,并显著增加通信负担,而这一问题主要是由于神经网络(NN)参数的置换不变性而导致的。比如,模型训练后的有些参数会在不同的变体中处于不同的位置,因此,直接对模型进行基于参数位置的加权平均可能使得某些参数失效。本文所提出的 FedMA 引入贝叶斯非参数方法以解决数据中的异质性问题。方法介绍本文首先讨论神经网络(NN)架构的置换不变性,并在 NNs 的参数空间中建立平均的概念。首先从最简单的单层隐藏层全连接 NN 开始介绍,之后针对深度架构、卷积和循环架构进行分析。1、全连接架构的置换不变性基本的全连接(FC)NN 可以表示为在不失一般性的前提下,上式省略了偏差以简化表示,σ是非线性的(entry-wise)。扩展上式,得到其中 i·和·i 分别表示第 i 行和第 i 列,L 是隐藏单元的数目。进一步,将 FC 的置换不变性写作:置换矩阵是一个正交矩阵,当应用于左侧时,它作用于行,而应用于右侧时,则作用于列。假设 {W1,W2} 是最佳权重,那么从两个同质数据集 X_j,X_j』训练获得的权重分别为 {W_1Π_j,(Π_j)^TW_2} 和 {W_1Π_j』,(Π_j』)^TW_2}。现在可以很容易地看出为什么在参数空间中进行简单的直接平均处理是不合适的。令 w_jl 表示数据库 j 中学习得到的第 l 个神经元(W(1)Π_j 中的第 l 列)。θi 表示全局模型中的第 i 个神经元,c(·,·) 表示一对神经元之间的相似函数。以下优化问题的解决方案是所需的置换:给定 J 个客户端提供的权重 {W_j,1,W_j,2},计算得到联邦神经网络权重:基于上式与最大二分匹配问题之间的关系,本文将此方法称为匹配平均(matched averaging)。如果 c(·,·)是欧式距离的平方,则可以得到类似于 k-means 聚类的目标函数,当然,该目标函数对「聚类分配」π 附加有额外的约束,以确保它们能够形成置换矩阵。2、关键(深度、卷积、循环)架构的置换不变性在介绍卷积和递归架构之前,首先讨论深度 FC 中的置换不变性和相应的匹配平均方法。在 FC 置换不变性的基础上扩展,得到递归定义的深度 FC 网络其中,n=1,...,N 表示层索引,π_0 是按照输入特征 x=x_0 排序的无歧义表征,π_N 表示输出类中对应的表征。σ(·) 为身份表征函数(或者是 softmax 函数,如果想要的是概率而不是逻辑值)。当 N=2 时,恢复得到一个与 FC 置换不变性一样的单隐藏层变量。为了对从 J 个客户机获得的深层 FCs 进行匹配平均,需要为每个客户端的每一层找到置换。然而任何连续的中间层对内的置换都是耦合的,这是一个 NP-hard 的组合优化问题。本文考虑递归(层内)匹配平均方法:假设有 {∏_(j,n-1)},将 {(∏_(j,n-1))^T W_j,n} 插入上式中,从而找到 {∏_(j,n)} 并移动到下一层。与神经元不同,卷积 NN(CNNs)的不变性体现在通道(channel)不变性上。令 Conv(x,W)表示输入 x 的卷积运算,W 为权重。对权重的输出维度应用任何置换,以及对后续层的输入通道维度应用相同的置换,都不会改变相应的 CNN 的前向反馈。CNNs 的元素表示为:上式允许在通道内进行池操作。为了对第 n 个 CNN 层应用匹配平均,按照公式(2)转换输入形式为:其中 D 是 (∏_(j,n-1))^T W_j,n 的展平后的维度数。类似于 FCs,可以递归地在深度 CNNs 上执行匹配平均。递归结构(RNN)中的置换不变性与隐藏状态的顺序有关。递归结构与 FC 结构相似,主要区别在于隐藏层到隐藏层的权重 H∈ R^(L×L) 排列不变性,其中,L 是隐藏状态的数目。隐藏状态的排列同时影响 H 的行和列。对于一个经典 RNN h_t= σ(h_t1 H + x_t W),其中 W 是隐藏权重的输入。为了解释隐藏态的置换不变性,对于任何 t,h_t 的所有维度都应该以相同的方式进行置换,即为了匹配 RNN,需要将欧氏距离相似的两个客户端的隐藏权重与隐藏权重对齐。本文的匹配平均 RNN 解是利用公式在输入到隐藏层的权重 {W_j} 中来找到 {∏_j},隐藏层权重输入的计算方式与之前一致,联邦隐藏层到隐藏层的权重 H 计算为LSTMs 有多个单元格状态,每个状态都有其各自的隐藏到隐藏的和输入到隐藏的权重。在外匹配平均过程中,当计算置换矩阵时,将输入到隐藏权重的信息叠加到 S D×L 权重矩阵(S 是单元状态数,D 是输入维数,L 是隐藏状态数)中,然后如前所述平均所有权重。LSTMs 通常也有一个嵌入层,将这一层当作一个 FC 层来处理。最后,以类似于深度 FCs 的递归方式处理深度 LSTMs。3、FedMA 的完整算法流程首先,数据中心(中央服务器)只从客户端收集第一层的权重,并执行前面描述的单层匹配以获得联邦模型的第一层权重。然后数据中心(中央服务器)将这些权重广播给客户端,客户端继续训练其数据集上的所有连续层,同时保持已经匹配的联邦层冻结。然后,将此过程重复到最后一层,根据每个客户端数据的类比例对其进行加权平均。FedMA 方法要求通信轮数等于网络中的层数。具体流程见算法 1:实验分析图 1 展示了层匹配 FedMA 在更深的 VGG-9CNN 和 LSTM 上的性能。在异构环境中,FedMA 优于 FedAvg、FedProx(LeNet 和 LSTM 为 4,VGG-9 为 9)和其他基线模型(即客户端个人 CNN 及其集成)训练得到的 FedProx。图 1. 基于 MNIST 的 LeNet;基于 CIFAR-10 数据集的 VGG-9;基于 Shakespeare 数据集的 LSTM 上有限通信量的各种联邦学习方法的比较:(a)同构数据划分(b)异构数据划分FedMA 的优点之一是它比 FedAvg 更有效地利用了通信轮次,即 FedMA 不是直接按元素平均权重,而是识别匹配的卷积滤波器组,然后将它们平均到全局卷积滤波器中。图 2 给出了可视化的一对匹配的本地滤波器、聚合的全局滤波器和 FedAvg 方法在相同输入图像上返回的滤波器所生成的表示。匹配滤波器和用 FedMA 生成的全局滤波器能够提取输入图像的相同特征,即客户端 1 的滤波器 0 和客户端 2 的滤波器 23 提取马腿的位置,而相应的匹配全局滤波器 0 也提取马腿的位置。对于 FedAvg,全局滤波器 0 是客户端 1 的滤波器 0 和客户端 2 的滤波器 0 的平均值,这明显篡改了客户端 1 的滤波器 0 的腿部提取结果。图 2. 由局部训练模型、FedMA 全局模型和 FedAvg 全局模型的第一卷积层生成的表示最后,作者研究了 FedMA 的通信性能。通过将 FedMA 与 FedAvg、FedProx 进行比较,在数据中心(中央服务器)和客户端之间交换的总消息大小(以千兆字节为单位)和全局模型实现良好效果所需的通信轮数(完成一次 FedMA 过程需要的轮数等于本地模型中的层数)测试数据的性能。此外,还比较了集成方法(Assemble)的性能。本文在 VGG-9 本地模型的 J=16 客户端的 CIFAR-10 数据库和 1 层 LSTM 的 J=66 客户端的 Shakespeare 数据库上评估了异构联邦学习场景下的所有方法。实验确定了 FedMA、FedAvg 和 FedProx 允许的总通信轮数,即 FedMA 为 11 轮,FedAvg 和 FedProx 分别为 99/33 轮,用于 VGG-9/LSTM 实验。FedMA 在所有情况下都优于 FedAvg 和 FedProx(图 3),当在图 3(a)和图 3(c)中将收敛性作为消息大小的函数进行评估时,它的优势尤其明显。图 2. 两种联合学习场景下各种方法的收敛速度:在 CIFAR-10 上训练 VGG-9,J=16 个客户端;在 Shakespeare 上训练 LSTM,J=66 个客户端文章小结本文提出了 FedMA----一种为现代 CNNs 和 LSTMs 体系结构设计的分层联邦学习算法,它考虑了神经元的排列不变性,并实现了全局模型大小的自适应变化。本文证明了 FedMA 可以有效地利用训练后的局部模型,这也是联邦学习算法和架构主要考虑的问题。在后续工作中,作者考虑利用近似二次分配解(Approximate Quadratic Assignment Solutions)的方法引入额外的深度学习构建块,例如剩余连接和批处理规范化层,从而进一步改进 LSTMs 的联邦学习效果。此外,作者提出,探索 FedMA 的容错性并研究其在更大数据库上的性能非常重要,特别是针对那些即使在数据可以聚合的情况下也无法进行有效训练的数据库。作者介绍:仵冀颖,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步。关于机器之心全球分析师网络 Synced Global Analyst Network机器之心全球分析师网络是由机器之心发起的全球性人工智能专业知识共享网络。在过去的四年里,已有数百名来自全球各地的 AI 领域专业学生学者、工程专家、业务专家,利用自己的学业工作之余的闲暇时间,通过线上分享、专栏解读、知识库构建、报告发布、评测及项目咨询等形式与全球 AI 社区共享自己的研究思路、工程经验及行业洞察等专业知识,并从中获得了自身的能力成长、经验积累及职业发展。

蛮银

硕士论文研究董明珠“自恋”引热议 知乎等平台有“前员工”称其描述基本与公司现状一致

来源:中国网科技中国网科技11月20日讯 网上一篇题为《CEO自恋及其经济后果研究——以格力电器为例》论文近期引发网友热议。文中因研究珠海格力电器股份有限公司董事长董明珠的“自恋人格”引发热议。记者注意到,这篇论文共分为六个章节共80多页。从摘要中可知其详细阐述董明珠作为格力CEO对公司发展造成的利弊影响。其中不乏第五章“格力电器CEO自恋及经济后果的案例分析”中提及董明珠自恋程度衡量、自恋行为表现、自恋形成过程和环境、格力电器CEO自恋下的内部人控制表现及后果,以及认为董明珠自恋行为表现为“渴望支配性权力、采取冒险决策、固执己见”等惊人之语。来源:知乎来源:微博(网络)而这篇论文曝光后不久,也在网上形成热议,褒贬不一。微博网友普遍质疑,作者论文或涉及人身攻击。可在知乎等问答平台上,大多数针对“如何看待浙江一高校研究生论文以董明珠为例,研究“CEO 自恋及其经济后果”?”的问题回复时,多数网友称该文章具备硕士论文的基本要素,从学术论文角度讲没有问题。甚至有自称离职2个月格力前员工的知乎用户留言表示“其描述基本与公司现状一致,可见作者写得非常用心。”

祭父

Nature子刊:曹雪涛团队再发论文,在该领域取得新进展

先天性免疫反应可保护宿主免受病原体感染,并向病原体施加进化压力,以减弱这些反应并确保其存活和复制的策略。这些不断变化的压力导致了跨宿主-病原体相互作用的先天性免疫稳态的复杂机制,但尚未得到全面了解。尤其是,更好地了解控制宿主与病原体相互作用并促进入侵病原体清除或逃逸的调节剂,可以确定传染病和慢性炎症的治疗靶标。非编码RNA(ncRNA)调节各种先天和适应性免疫过程。 MicroRNA(miRNA)是研究最深入的ncRNA,通常在免疫反应中充当基因表达的转录后调节剂,而长链非编码RNA(lncRNA)已成为各种生理学中基因表达的其他关键调节因子。 lncRNA通过多种机制调节免疫反应和炎症中的信号传导途径,包括充当调节蛋白的向导,支架或诱饵。干扰素-γ(IFN-γ)对于细胞内细菌固有的免疫反应至关重要。非编码RNA和RNA结合蛋白(RBP)在研究巨噬细胞中IFN-γ激活的信号通路的调控中不是很清楚。2019年11月18日,曹雪涛团队在免疫学领域顶级期刊 Nature Immunology杂志在线发表了题为:Incible degradation of lncRNA Sros1 promotes IFN-γ-mediated activation of innate immune responses by stabilizing Stat1 mRNA 的研究论文。该研究发现miR-1通过降解胞质lncRNA Sros1,间接稳定Stat1的mRNA来促进巨噬细胞中IFN-γ介导的李斯特菌的清除。 Sros1的可诱导降解或遗传缺失导致先天免疫应答增强的IFN-γ依赖性激活。 从机制上讲,Sros1阻断Stat1 mRNA与RBP CAPRIN1的结合,从而稳定Stat1 mRNA,进而促进IFN-γ–STAT1介导的先天免疫。 这些发现揭示了复杂的RNA-RNA调控网络,参与了宿主-病原体相互作用中细胞因子引发的先天反应。核lncRNAs通过支架亚核结构和指导核小体定位来调节免疫反应基因的转录。LncRNA–ACOD1直接与其酶伴侣谷氨酸–草酰乙酸转氨酶2结合,以增强该酶的催化活性,从而促进病毒感染。尽管有这些观察结果,目前尚不清楚调控宿主与病原体相互作用的lncRNA的范围和设置。此外,lncRNA用来调节针对细菌感染的先天免疫应答的多种机制使得难以预测是否以及如何涉及lncRNA。单核细胞增生李斯特菌是一种细胞内致病性革兰氏阳性细菌,是研究宿主与病原体相互作用和细胞内感染的理想模型。单核细胞增生李斯特氏菌被易感的真核宿主摄取后,便会转变成病原体,以在恶劣的环境中生存。感染的命运取决于巨噬细胞活化与病原体抵抗宿主细胞杀菌能力之间的平衡。 II型干扰素(IFN-γ)通过信号转换器JAK和转录激活因子STAT发出信号,从而具有有效的抗细胞内微生物活性,该转录因子可激活巨噬细胞以对抗细胞内微生物。为了解决STAT1的数量如何在免疫反应中达到平衡,该研究筛选了单核细胞增生李斯特菌和巨噬细胞之间相互作用的miRNA。研究人员发现,miR-1促进了巨噬细胞中针对细胞内单核细胞增生李斯特菌感染的IFN-γ介导的先天应答。 miR-1在转录后增加Stat1 mRNA的表达,并增强巨噬细胞中的IFN-γ信号传导。在无偏差的miRNA体内沉淀(miRIP)方法中,发现lncRNA Sros1(STAT1的抑制性非编码RNA)被miR-1靶向。miR-1介导的Sros1降解可稳定Stat1 mRNA,并促进IFN-γ-STAT1介导的先天应答。总而言之,这些发现揭示了复杂的RNA-RNA调控网络,参与了宿主-病原体相互作用中细胞因子引发的先天反应。另据澎湃新闻、中国新闻周刊、中国青年报消息,曹雪涛论文质疑者:已收到一些回复18日,我们报道了南开大学校长、中国工程院院士曹雪涛被曝多篇论文造假,论文实验图片有PS痕迹一事。曹雪涛院士也于凌晨在pubpeer网站上做出了回应。同日,曹雪涛团队陆续提供了原始图片,对部分受质疑的论文进行了解释。论文质疑者美国学者Elisabeth Bik博士也表示:“已收到回复 化解部分疑虑”。同日,中国工程院办公厅工作人员在接受澎湃新闻采访时表示,中国工程院会针对网络反映曹雪涛院士的有关问题展开调查。 “我们已经了解到网络上有关曹雪涛院士的投诉,我们会调查处理这件事情,但是进一步调查处理也需要花时间,具体以什么形式展开调查,目前暂时还不掌握最新情况,只是说我们(中国工程院)肯定会调查。”上述人士表示。曹雪涛回应图像相似:放错图了备受关注的是曹雪涛本人对于2014年发表在《科学》杂志上论文的回应。质疑者Elisabeth Bik博士表示,这篇论文的补充结果部分,有一张流式细胞术的结果图。其中,最左边“未转染”与最右边的“Inc-DC RNAi-1”的数据,被怀疑是相似的。曹雪涛亲自回应称,这可能是因为他们放错了图;并且在回应中,展示了原始数据,对这种无意的错误表示了歉意。网站截图对于2011年发表在《实验医学杂志》及2015年发表在《自然免疫学》上的两篇论文,作者之一陈涛涌提供了原始数据,并对其中产生异常数据的原因做出解释。质疑者Elisabeth Bik博士在其中一篇解释后回复称,感谢提供原始数据并解除疑虑。网站截图网站截图对于2018年发表在《细胞免疫学杂志》的论文,第一作者Shuxun Liu 先后两次回应称,之所以出现这样的错误是因为在整合编辑文章结果时发生的,已经与该杂志编辑部取得联系,此后将更正数据。质疑者Elisabeth Bik博士也在此帖中回复,非常感谢解释和更正此错误。网站截图网站截图对于发表2013年《免疫学杂志》上的论文,第一作者Lin Li回复称,该实验原始数据已提交至ArrayExpress公共数据库,材料和方法都已进行描述。质疑者Elisabeth Bik博士随后回复称,非常感谢解释,这很有帮助。网站截图pubpeer网站:暴露在阳光下的同行评审据了解,pubpeer网站是一个鼓励科研人员匿名对已发表的论文进行评论的网站。多位国际知名学者曾因在pubpeer网站上遭到质疑后,引起期刊注意后核实,随后遭到期刊撤稿。此次曹雪涛论文遭到质疑的原因大多为图像异常。质疑者Elisabeth Bik博士向《中国新闻周刊》表示,在一定条件下,实验出现图像的多次“重复”是有可能的,比如,蛋白质印迹法采用相同的实验控制条件和样本,采用相同的组织切片,图像会呈现相似性,但这样的相似性应该在该出现的地方。而就流式细胞仪来说,即便用同样的样本,细胞最终落点也不可能完全一致,“只是会大体位于同一象限,大体位置接近,但绝不会每次一样”。Elisabeth Bik博士同时强调,她只是将可能存在问题的图像和论文标注出来,至于这样的图像是否构成学术不端,最终要看期刊的裁决,而期刊只有前期审查,才可能杜绝这样的现象。质疑者Elisabeth Bik博士还在推特中写道:最近我提出了一位中国学者论文中的图像异常。我想强调的是,我没有指责任何人失职。只是希望大家记住,有些(不必要的)重复也许只是诚实的错误。

道无终始

NeurIPS提前看|四篇论文,一窥元学习的最新研究进展

机器之心原创作者:仵冀颖编辑:H4O2019 年,NeurIPS 接受与元学习相关的研究论文约有 20 余篇。元学习(Meta-Learning)是近几年的研究热点,其目的是基于少量无标签数据实现快速有效的学习。本文对本次接收的元学习论文进行了梳理和解读。2019 年 NeurIPS 将于 12 月 8 日至 14 日在加拿大温哥华举行。NeurIPS 今年共收到投稿 6743 篇,其中接受论文 1429 篇,接受率达到了 21.1%。作为人工智能领域的年度盛会,每年人工智能的专家学者以及工业企业界的研发人员都会积极参会,发布最新的理论研究结果以及应用实践方面的成果。今年,国外的高校和研究机构一如既往的踊跃参加本届 NeurIPS,其中 Google 共贡献了 179 篇文章,斯坦福和卡耐基梅隆分别有 79 篇和 75 篇文章。国内的企业界腾讯上榜 18 篇、阿里巴巴上榜 10 篇,高校和研究机构中清华参与完成的文章共有 35 篇。2019 年,NeurIPS 接受与元学习相关的研究论文约有 20 余篇。元学习(Meta-Learning)是近几年的研究热点,其目的是基于少量无标签数据实现快速有效的学习。元学习通过首先学习与相似任务匹配的内部表示,为机器提供了一种使用少量样本快速适应新任务的方法。学习这种表示的方法主要有基于模型的(model-based meta-learning)和模型不可知的(model-agnostic meta-learning,MAML)两类。基于模型的元学习方法利用少量样本的任务标记(task identity)来调整模型参数,使用模型完成新任务,这种方法最大的问题是设计适用于未知任务的元学习策略非常困难。模型不可知的方法首先由 Chelsea Finn 研究组提出,通过初始化模型参数,执行少量的梯度更新步骤就能够成功完成新的任务。本文从 NeurIPS 2019 的文章中选择了四篇来看看元学习的最新的研究方向和取得的成果。Chelsea Finn 以及他的老师 Pieter Abbeel 在元学习领域一直非常活跃,他们的研究团队在这个方向已经贡献了大量的优秀成果,推动了元学习在不同任务中的有效应用。在本次 NeurIPS 中,他们的研究团队针对基于梯度(或优化)的元学习提出了一种只依赖于内部级别优化的解决方案,从而有效地将元梯度计算与内部循环优化器的选择分离开来。另外,针对强化学习问题,提出了一种元强化学习算法,通过有监督的仿真学习有效的强化学习过程,大大加快了强化学习程序和先验知识的获取。我们将在这篇提前看中深入分析和理解这些工作。Chelsea Finn 是斯坦福大学计算机科学和电子工程的助理教授,同时也担任 Google Brain 的研究科学家。Chelsea Finn 在她的博士论文《Learning to Learn with Gradients》中提出的 MAML 是目前元学习的三大方法之一,Chelsea Finn 证明了 MAML 的理论基础,并在元学习领域中将其发扬光大,在少样本模仿学习、元强化学习、少样本目标推断等中都获得了很好的应用。本文还选择另外两篇关于元学习的文章进行讨论,其中一篇是 Facebook 的工作,提出了一种元序列到序列(Meta seq2seq)的方法,通过学习成分概括,利用域的代数结构来帮助理解新的语句。另外一篇提出了一个多模态 MAML(Multimodal MAML)框架,该框架能够根据所识别的模式调整其元学习先验参数,从而实现更高效的快速自适应。论文清单:Meta-Learning with Implicit GradientsGuided Meta-Policy SearchCompositional generalization through meta sequence-to-sequence learningMultimodal Model-Agnostic Meta-Learning via Task-Aware Molation1、Aravind Rajeswaran,Chelsea Finn,Sham Kakade,Sergey Levine,Meta-Learning with Implicit Gradients ,https://papers.nips.cc/paper/8306-meta-learning-with-implicit-gradients.pdf基于优化的元学习方法主要有两种途径,一是直接训练元学习目标模型,即将元学习过程表示为神经网络参数学习任务。另一种是将元学习看做一个双层优化的过程,其中「内部」优化实现对给定任务的适应,「外部」优化的目标函数是元学习目标模型。本文是对后一种方法的研究和改进。元学习过程需要计算高阶导数,因此给计算和记忆带来不小的负担,另外,元学习还面临优化过程中的梯度消失问题。这些问题使得基于(双层)优化的元学习方法很难扩展到涉及大中型数据集的任务,或者是需要执行许多内环优化步骤的任务中。本文提出了一种隐式梯度元学习方法(implicit model-agnostic meta-learning,iMAML),利用隐式微分,推导出元梯度解析表达式,该表达式仅依赖于内部优化的解,而不是内部优化算法的优化路径,这就将元梯度计算和内部优化两个任务解耦。具体见图 1 中所示,其中经典的任务不可知的元学习(model-agnostic meta-learning,MAML)方法沿绿色的路径计算元梯度,一阶 MAML 则利用一阶倒数计算元梯度,本文提出的 iMAML 方法通过估计局部曲率,在不区分优化路径的情况下,推导出精确的元梯度的解析表达式。图 1. 不同方法元梯度计算图示针对元学习任务 {Ti},i=1,...,M,分别对应数据集 Di,其中每个数据集包含两个集(set):训练集 D^tr 和测试集 D^test,每个集中的数据结构均为数据对,以训练集为例:元学习任务 Ti 的目标是,通过优化损失函数 L,基于训练集学习任务相关的参数φ _i,从而实现测试集中的损失值最小。双层优化的元学习任务为:其中,本文重点关注 Alg 部分的显示或隐式计算。经典 MAML 中,Alg 对应一步或几步梯度下降处理:在数值计算过程中,为避免过拟合问题、梯度消失问题以及优化路径参数带来的计算和内存压力问题,采用显示正则化优化方法:由此双层元学习优化任务为:其中采用显示迭代优化算法计算 Alg*存在下列问题:1、依赖于显示优化路径,参数计算和存储存在很大负担;2、三阶优化计算比较困难;3、该方法无法处理非可微分的操作。因此,本文考虑隐式计算 Alg*。具体算法如下:考虑内部优化问题的近似解,它可以用迭代优化算法(如梯度下降)来获得,即:对 Alg*的优化可以通过雅克比向量积近似逼近:其中,φ_ i = Alg_i( θ)。观察到 g_i 可以作为优化问题的近似解获得:共轭梯度算法(Conjugate Gradient, CG)由于其迭代复杂度和仅满足 Hessian 矢量积的要求而特别适合于求解此问题。不同方法的计算复杂度和内存消耗见表 1。用 k 来表示由 g_i 引起的内部问题的条件数,即内部优化计算问题的计算难度。Mem() 表示计算一个导数的内存负载。表 1:不同方法的内存及计算负载为了证明本文方法的有效性,作者给出了三个实验:一是,通过实验验证 iMAML 是否能够准确计算元梯度。图 2(a)考虑了一个人工模拟的回归示例,其中的预测参数是线性的。iMAML 和 MAML 都能够渐近匹配精确的元梯度,但 iMAML 在有限迭代中能够计算出更好的近似。图 2. 准确度、计算复杂度和内存负载对比。其中 MAML 为经典方法,iMAML 为本文提出的方法,FOMAML 为一阶 MAML 方法二是,通过实验验证在有限迭代下 iMAML 是否能够比 MAML 更精确地逼近元梯度。图 2(b) 中实验可知,iMAML 的内存是基于 Hessian 向量积的,与内部循环中梯度下降步数无关。内存使用也与 CG 迭代次数无关,因为中间计算不需要存储在内存中。MAML 和 FOMAML 不通过优化过程反向传播,因此计算成本仅为执行梯度下降的损耗。值得注意的是,FOMAML 尽管具有较小的计算复杂度和内存负载,但是由于它忽略了 Jacobian,因此 FOMAML 不能够计算精确的元梯度。三是,对比与 MAML 相比的计算复杂度和内存负载,以及通过实验验证 iMAML 是否能在现实的元学习问题中产生更好的结果,本文使用了 Omniglot 和 Mini ImageNet 的常见少数镜头图像识别任务(few-shot)进行验证。在现实元学习实验中,选择了 MAML、FOMAML (First order MAML) 和 Reptile 作为对比方法。在 Omniglot 域上,作者发现 iMAML 的梯度下降(GD)版本与全 MAML 算法相比具有竞争力,并且在亚空间上优于其近似值(即 FOMAML 和 Reptile),特别是对于较难的 20 路(20-way)任务。此外,实验还表明无 Hessian 优化的 iMAML 比其他方法有更好的性能,这表明内部循环中强大的优化器可以改进元学习的效果。在 Mini-ImageNet 域中,iMAML 的效果也优于 MAML 和 FOMAML。表 2. Omniglot 实验结果表 3. Mini ImageNet 实验结果2、Russell Mendonca,Abhishek Gupta,Rosen Kralev,Pieter Abbeel,Sergey Levine,Chelsea Finn,Guided Meta-Policy Search,https://papers.nips.cc/paper/9160-guided-meta-policy-search.pdf元学习的目的是利用完成不同任务的历史经验帮助学习完成新任务的技能,元强化学习通过与环境的少量交互通过尝试和改正错误来解决这一问题。元强化学习的关键是使得 agent 具有适应性,能够以新的方式操作新对象,而不必为每个新对象和目标从头学习。目前元强化学习在优化稳定性、解决样本复杂度等方面还存在困难,因此主要在简单的任务领域中应用,例如低维连续控制任务、离散动作指令导航等。本文的研究思路是:元强化学习是为了获得快速有效的强化学习过程,这些过程本身不需要通过强化学习直接获得,相反,可以使用一个更加稳定和高效的算法来提供元级(meta-level)监控,例如引入监督模仿学习。本文首次提出了在元学习环境中将模仿(imitation)和强化学习(RL)相结合。在执行元学习的过程中,首先由本地学习者单独解决任务,然后将它们合并为一个中心元学习者。但是,与目标是学习能够解决所有任务的单一策略的引导式策略搜索(guided policy search)不同,本文提出的方法旨在元学习到能够适应训练任务分布的单一学习者,通过概括和归纳以适应训练期间未知的新任务。图 3. 引导式元策略搜索算法综述图 3 给出本文提出的引导式元策略搜索算法的总体结构。通过在内部循环优化过程中使用增强学习以及在元优化过程引入监督学习,学习能够快速适应新任务的策略π_θ。该方法将元学习问题明确分解为两个阶段:任务学习阶段和元学习阶段。此分解使得可以有效利用以前学习的策略或人工提供的演示辅助元学习。现有的元强化学习算法一般使用同步策略方法(on-policy)从头开始进行元学习。在元训练期间,这通常需要大量样本。本文的目标是使用以前学到的技能来指导元学习过程。虽然仍然需要用于内部循环采样的同步策略数据,但所需要的数据比不使用先前经验的情况下要少得多。经典 MAML 的目标函数如下:应用于元强化学习中,每个数据集表示为如下轨迹形式:s_1,a_1,...,a_H-1,,s_H。内部和外部循环的损失函数为:将元训练任务的最优或接近最优的策略标记为 {(π_i)^*},其中每个政策定义为「专家」。元学习阶段的优化目标 L_RL(φ_i,D_i) 与 MAML 相同,其中φ_i 表示策略参数,D_i 为数据集。内部策略优化过程利用第一阶段学习到的策略优化元目标函数,特别的,把外部目标建立在专家行为的监督模仿或行为克隆(Behavior Cloning,BC)上。BC 损失函数为:监督学习的梯度方差较小,因此比强化学习的梯度更加稳定。第二阶段的任务是:首先利用每个策略 (π_i)^*,为每个元训练任务 Ti 收集专家轨迹 (Di)^*的数据集。使用此初始数据集,根据以下元目标更新策略:由此得到一些能够适用于不同任务的列初始策略参数θ从而生成φ_i。在单任务模拟学习环境中,进一步的,可以继续通过从学习到的策略中收集额外的数据 (扩展数据集 D*),然后用专家策略中的最优操作标记访问状态。具体步骤为:(1)利用策略参数θ生成 {φ_i};(2)针对每个任务,利用当前策略 {π_(φ_i)} 生成状态 {{s_t}_i};(3)利用专家生成监督数据 D={{s_t,π_i(s_t))}_i};(4)使用现有监督数据聚合该数据。引导式元策略搜索算法(Guided Meta-policy Search, GMPS)如下:本文使用 Sawyer 机器人控制任务和四足步行机任务验证 GMPS 的有效性。所选择的对比算法包括:基于异步策略方法的 PEARL、策略梯度版本的 MAML(内部循环使用 REINFORCE,外部循环使用 TRPO)、RL2、针对所有元训练任务的单一政策方法 MultiTask、附加结构化噪声的模型不可知算法 (MAESN)。图 4 给出完成全状态推送任务和密集奖励运动的元训练效率。所有方法都达到了相似的渐近性能,但 GMPS 需要的样本数量明显较少。与 PEARL 相比,GMPS 给出了相近的渐进性能性能。与 MAML 相比,GMPS 完成 Sawyer 物体推送任务的性能提高了 4 倍,完成四足步行机任务的性能提高了约 12 倍。GMPS 的下述处理方式:(1)采用了用于获取每个任务专家的异步策略增强学习算法和(2)能够执行多个异步策略监督梯度步骤的组合,例如外部循环中的专家,使得 GMPs 与基于策略的元增强学习算法(如 MAML)相比,获得了显著的总体样本效率增益,同时也显示出比 PEARL 等数据效率高的上下文方法更好的适应性。图 4. Sawyer 机器人任务效果对比图 5. 稀疏奖励开门动作(左)、稀疏奖励蚂蚁移动(中)和视觉推手动作(右)的元训练比较对于涉及稀疏奖励和图像观察的具有挑战性的任务,有效利用人工提供的演示可以极大地改进强化学习的效果,图 5 中给出了相关的实验。与其他传统方法相比,GMPS 能够更加有效且容易的利用演示信息。在图 5 所有的实验中,关于目标位置的位置信息都不作为输入,而元学习算法必须能够发现一种从奖励中推断目标的策略。对于基于视觉的任务,GMPS 能够有效地利用演示快速、稳定地学习适应。此外,图 5 也表明,GMPS 能够在稀疏的奖励设置中成功地找到一个好的解决方案,并学会探索。GMPS 和 MAML 都能在所有训练任务中获得比单一策略训练的强化学习更好的性能。3、Brenden M. Lake,Compositional generalization through meta sequence-to-sequence learning,https://papers.nips.cc/paper/9172-compositional-generalization-through-meta-sequence-to-sequence-learning.pdf由于人具有创作学习的能力,他们可以学习新单词并立即能够以多种方式使用它们。一旦一个人学会了动词「to Facebook」的意思,他或她就能理解如何「慢慢地 Facebook」、「急切地 Facebook」或「边走边 Facebook」。这就是创造性的能力,或是通过结合熟悉的原语来理解和产生新颖话语的代数能力。作为一种机器学习方法,神经网络长期以来一直因缺乏创造性而受到批评,导致批评者认为神经网络不适合建模语言和思维。最近的研究通过对现代神经结构的研究,重新审视了这些经典的评论,特别是成功的将序列到序列(seq2seq)模型应用于机器翻译和其他自然语言处理任务中。这些研究也表明,在创造性的概括方面,seq2seq 仍存在很大困难,尤其是需要把一个新的概念(「到 Facebook」)和以前的概念(「慢慢地」或「急切地」)结合起来时。也就是说,当训练集与测试集相同时,seq2seq 等递归神经网络能够获得较好的效果,但是当训练集与测试集不同,即需要发挥「创造性」时,seq2seq 无法成功完成任务。这篇文章中展示了如何训练记忆增强神经网络,从而通过「元-序列到序列学习」方法(meta seq2seq)实现创造性的概括。与标准的元学习方法类似,在「元训练」的过程中,训练是基于分布在一系列称为「集(episode)」的小数据集上完成的,而不是基于单个静态数据集。在「元 seq2seq 学习」过程中,每一集(episode)都是一个新的 seq2seq 问题,它为序列对(输入和输出)和「查询」序列(仅输入)提供「支持」。该方法的网络支持将序列对加载到外部内存中,以提供为每个查询序列生成正确输出序列所需的上下文。将网络的输出序列与目标任务进行比较,从而获得由支持项目到查询项目的创造性概括能力。元 seq2seq 网络对需要进行创造性组合泛化的多个 seq2seq 问题进行元训练,目的是获得解决新问题所需的组合技能。新的 seq2seq 问题完全使用网络的激活动力学和外部存储器来解决;元训练阶段结束后,不会进行权重更新。通过其独特的结构选择和训练过程,网络可以隐式地学习操作变量的规则。图 6. 元 seq2seq 学习图 6 给出了一个元 seq2seq 学习的示例,其任务是根据支撑数据集处理查询指令「跳两次」,支撑集包括「跑两次」、「走两次」、「看两次」和「跳」。利用一个递归神经网络(Recurrent Neural Network,RNN)编码器(图 6 中右侧下部的红色 RNN)和一个 RNN 解码器(图 6 中右侧上部绿色 RNN)理解输入语句生成输出语句。这个结构与标准 seq2seq 不同,它利用了支撑数据集、外部存储和训练过程。当消息从查询编码器传递到查询解码器时,它们受到了由外部存储提供的逐步上下文信息 C 影响。下面将详细描述体系结构的内部工作流程:1、输入编码器输入编码器 f_ie(图 6 中红色部分)对输入查询指令以及支撑数据集中的输入指令进行编码,生成输入嵌入特征 w_t,利用 RNN 转化为隐层嵌入特征 h_t:对于查询序列,在每个步骤 t 时的嵌入特征 h_t 通过外部存储器,传递到解码器。对于每个支撑序列,只需要最后一步隐藏嵌入特征,表示为 K_i。这些向量 K_i 作为外部键值存储器中的键使用。本文使用的是双向长短时记忆编码(bidirectional long short-term memory encorders)方法。2、输出编码器输出编码器 f_oe(图 6 中蓝色部分)用于每个支撑数据集中的项目和其对应的输出序列。首先,编码器使用嵌入层嵌入输出符号序列(例如动作)。第二,使用与 f_ie 相同的处理过程计算数列的嵌入特征。最后一层 RNN 的状态作为支撑项目的特征向量存储 V_i。仍然使用 biLSTM。3、外部存储器该架构使用类似于存储器网络的软键值存储器,键值存储器使用的注意函数为:每个查询指令从 RNN 编码器生成 T 个嵌入,每个查询符号对应一个,填充查询矩阵 Q 的行。编码的支撑项目分别为输入和输出序列的 K 行和 V 行。注意权重 A 表示对于每个查询步骤,哪些内存单元处于活动状态。存储器的输出是矩阵 M=AV,其中每一行是值向量的加权组合,表明查询输入步骤中每一步的存储器输出。最后,通过将查询输入嵌入项 h_t 和分步内存输出项 M_t 与连接层 C_t=tanh(Wc1 [h_t;M_t])结合来计算分步上下文,从而生成分步上下文矩阵 C。4、输出解码器输出解码器将逐步上下文 C 转换为输出序列(图 6 中绿色部分)。解码器将先前的输出符号嵌入为向量 o_j-1,该向量 o_j-1 与先前的隐藏状态 g_j-1 一起啊输入到 RNN(LSTM)以获得下一个隐藏状态,初始隐藏状态 g_0 被设置为最后一步的上下文 C_T。使用 Luong 式注意计算解码器上下文 u_j,使得 u_j=Attension(g_j,C,C)。这个上下文通过另一个连接层 g_j=tanh(Wc2 [g_j;u_j]),然后映射到 softmax 输出层以产生输出符号。此过程重复,直到产生所有输出符号,RNN 通过产生序列结束符号来终止响应。5、元训练元训练通过一系列训练集优化网络,每个训练集都是一个带有 n_s 支撑项目和 n_q 查询项目的新 seq2seq 问题。模型的词汇表是事件(episode)词汇表的组合,损失函数是查询的预测输出序列的负对数似然。本文方法的 PyTorch 代码已公开发布:https://github.com/brendenlake/meta_seq2seq本文给出了不同的实验验证元 seq2seq 方法的有效性。通过置换元训练增加一个新的原语的实验,评估了元 seq2seq 学习方法在添加新原语的 SCAN 任务中的效果。通过将原始 SCAN 任务分解为一系列相关的 seq2seq 子任务,训练模型进行创造性的概括。目标是学习一个新的基本指令,并将其组合使用。例如模型学习一个新的原始「跳跃」,并将其与其他指令结合使用,类似于本文前面介绍的「to Facebook」示例。实验结果见表 4 结果中间列。其中,标准 seq2seq 方法完全失败,正确率仅为 0.03%。元 seq2seq 方法能够成功完成学习复合技能的任务,表中所示达到了平均 99.95% 的正确率。表 4. 在不同训练模式下测试 SCAN「添加跳跃」任务的准确性通过增强元训练增加一个新的原语的实验目的是表明元 seq2seq 方法可以「学习如何学习」原语的含义并将其组合使用。文章只考虑了四个输入原语和四个意义的非常简单的实验,目前的研究情况下,作者认为尚不能确定元 seq2seq 学习是否适用于更复杂的任务领域。实验结果见表 4 的最右侧列。元 seq2seq 方法能够完成获得指令「跳」并正确使用的任务,正确率达到了 98.71%。标准 seq2seq 得益于增强训练的处理得到了 12.26% 的正确率。关于利用元训练合成类似概念的任务,实验结果见表 5 左侧结果列。元 seq2seq 学习方法能够近乎完美的完成这个任务(正确率 99.96%),能够根据其组成部分推断「around right」的含义。而标准 seq2seq 则完全无法完成这个任务(0.0% 正确率),syntactic attention 方法完成这个任务的正确率为 28.9%。最后一个实验验证了元 seq2seq 方法是否能够学习推广到更长的序列,即测试序列比元训练期间的任何经验语句序列都长。实验结果见表 5 最右侧列。可以看到,所有方法在这种情况下表现都不佳,元 seq2seq 方法仅有 16.64% 的正确率。尽管元 seq2seq 方法在合成任务上较为成功,但它缺乏对较长序列进行外推所需的真正系统化的概括能力。表 5. 测试 SCAN「左右」和「长度」任务的准确性元 seq2seq 学习对于理解人们如何从基本成分元素创造性的概括推广到其它概念有着重要的意义。人们是在动态环境中学习的,目的是解决一系列不断变化的学习问题。在经历过一次像「to Facebook」这样的新动词之后,人们能够系统地概括这种学习或激励方式是如何完成的。这篇文章的作者认为,元学习是研究学习和其他难以捉摸的认知能力的一个强大的新工具,尽管,在目前的研究条件下还需要更多的工作来理解它对认知科学的影响。本文所研究的模型只是利用了网络动态参数和外部存储器就实现了在测试阶段学到如何赋予单词新的意义。虽然功能强大,但这个工作仍然是一个有限的「变量」概念,因为它需要熟悉元训练期间所有可能的输入和输出分配。这是目前所有神经网络体系架构所共有的问题。作者在文末提到,在未来的工作中,打算探索在现有网络结构中添加更多的象征性组织(symbolic machinery),以处理真正的新符号,同时解决推广到更长输出序列的挑战。4、Risto Vuorio,Shao-Hua Sun,Hexiang Hu,Joseph J. Lim,Multimodal Model-Agnostic Meta-Learning via Task-Aware Molation,https://papers.nips.cc/paper/8296-multimodal-model-agnostic-meta-learning-via-task-aware-molation.pdf经典的模型不可知的元学习方法(MAML)需要找到在整个任务分布中共享的公共初始化参数。但是,当任务比较复杂时,针对任务采样需要能够找到实质性不同的参数。本文的研究目标是,基于 MAML,找到能够获得特定模式的先验参数的元学习者,快速适应从多模式任务分布中抽取的给定任务。本文提出了一个多模态模型不可知元学习框架(Multimodal Model-Agnostic Meta-Learning,MMAML),该框架同时利用基于模型的元学习方法和模型不可知的元学习方法,能够根据识别的模式调整其元学习先验参数,从而实现更高效的快速自适应。图 7 给出了 MMAML 整体框架。MMAML 的重点是利用两种神经网络实现快速适应新任务。首先,称为调制网络(Molation Network)的网络预测任务模式的标识。然后将预测出的模式标识作为任务网络 (Task Network)的输入,该网络通过基于梯度的优化进一步适应任务。具体算法如下:图 7. MMAML 框架调制网络负责识别采样任务的模式,并生成一组特定于该任务的参数。首先将给定的 K 个数据及其标签 {x_k,y_k}_k=1,…,K 输入到任务编码器 f 中,并生成一个嵌入向量 v,该向量对任务的特征进行编码:然后基于编码后的任务嵌入向量 v 计算任务特定参数 τ,进而对任务网络的元学习先验参数进行调制。任务网络可以是任意参数化的函数,例如深卷积网络、多层递归网络等。为了调整任务网络中每个块的参数作为解决目标任务的初始化参数,使用块级转换来缩放和移动网络中每个隐藏单元的输出激活。具体地,调制网络为每个块 i 产生调制向量,表示为:其中 N 是任务网络中的块数。上述过程表示其中θ_i 为初始化参数,Φ_i 是任务网络的调制先验参数。本文选用了特征线性调制方法(feature-wise linear mola-tion,FiLM)作为调制运算方法。使用调制网络生成的任务特定参数τ={τ_i | i=1,···,N} 来调制任务网络的每个块的参数,该参数可以在参数空间 f(x;θ,τ)中生成模式感知初始化。在调制步骤之后,对任务网络的元学习先验参数进行几步梯度下降以进一步优化任务τ_i 的目标函数。在元训练和元测试时,采用了相同的调制和梯度优化方法。作者表示,详细的网络结构和训练超参数会因应用领域的不同而有所不同。本文在多模态任务分布下,评估了 MMAML 和基线极限方法在不同任务中的效果,包括回归、图像分类和强化学习等。基线对比方法包括使用多任务网络的 MAML 和 Multi-MAML。表 6. 回归实验结果表 6 给出了 2、3 和 5 模式下多模态五次回归的均方误差(MSE)。应用μ=0 和σ=0.3 的高斯噪声。Multi-MAML 方法使用基本事实的任务模式来选择对应的 MAML 模型。本文提出的方法(使用 FiLM 调制)比其他方法效果稍好。表 7. 图像分类实验结果表 7 给出了 2、3、5 模式多模式少镜头图像分类准确度测试结果,结果证明了本文提出的方法与 MAML 比有较好的效果,并且与 Multi-MAML 的性能相当。表 8. 元强化学习实验结果表 8 给出在 3 个随机种子上报告的 2、4 和 6 个模式的多模态强化学习问题中,每集(episode)累积奖励的平均值和标准差。元强化学习的目标是在有限的任务经验基础上适应新的任务。本文使用 ProMP 算法优化策略和调制网络,同时使用 ProMP 算法作为实验对比基线,Multi-ProMP 是一个人工基线,用于显示使用 ProMP 为每个模式训练一个策略的性能。表 8 所示的实验结果表明,MMAML 始终优于未经调制的 ProMP。只考虑单一模式的 Multi-ProMP 所展示出的良好性能表明,在该实验环境下,不同方法面临的适应性困难主要来自于多种模式。图 8. 从随机抽样的任务生成的任务嵌入的 tSNE 图;标记颜色表示任务分布的不同模式最后,图 8 给出了上述各个实验从随机抽样的任务生成的任务嵌入的 tSNE 图,其中标记颜色表示任务分布的不同模式。图(b)和图(d)显示了根据不同任务模式的清晰聚类,这表明 MMAML 能够从少量样本中识别任务并产生有意义的嵌入量。(a)回归:模式之间的距离与函数相似性的情况一致(例如,二次函数有时可以类似于正弦函数或线性函数,而正弦函数通常不同于线性函数)(b)少镜头图像分类:每个数据集(即模式)形成自己的簇。(c)-(d)强化学习:聚类数字代表不同的任务分配模式。不同模式的任务在嵌入空间中能够清晰地聚集在一起。作者介绍:仵冀颖,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步。

公心

SIGIR 2020最佳论文解读出炉,可缓解排名问题的马太效应?

作者 | 陈大鑫编辑 | 青 暮凡是少的,就连他剩下的也要夺过来。凡是多的,还要让他他多多益善。任何个体、群体或地区,在某一个方面(如金钱、名誉、地位等)获得成功和进步,就会产生一种积累优势 ,就会有更多的机会取得更大的成功和进步。这就是“马太效应” ,反映当今社会中存在的一个普遍现象,即赢家通吃。在一些推荐排名应用中马太效应同样存在,比如大家经常浏览的微博、知乎热搜。同一类话题排名越靠前被点击的概率也就越大,这样,在一段时间内,越是靠前的话题就越会被人点击,然后它越会靠前,然后它就越会...... 当然,也许热搜机制存在的意义就在于此,或许不必缓解马太效应。但是在其它很多排名环境中,不只涉及用户,还有项目提供方。在网上搜索中,很大一部分人只会看搜索出来的第一个页面,至于第二个页面,很多人都不会去看,甚至有时一度忘记竟然还有第二个页面。如果这时用户是在某APP搜索想要购买的商品,那么对于商家而言马太效应带来的偏差和不公平对收益的影响可是很大的。那么类似这种排名环境中的马太效应可以得到很好的缓解吗? 7月29日晚,第43届国际信息检索研究与发展(SIGIR )年会最佳论文奖正式公布,由柏林工业大学和康奈尔大学的研究者摘得该奖项,该研究对动态学习排名的不公平和偏差做了一些控制,尤其是想要解决马太效应中的“富者越富”这一问题。论文:《Controlling Fairness and Bias in Dynamic Learning-to-Rank》论文地址:https://arxiv.org/pdf/2005.14713.pdf论文作者:Marco Morik, Ashudeep Singh, Jessica Hong, Thorsten Joachims接下来我们就来看一下论文是如何解决这一问题的。1曝光模型&偏差概念我们先看看动态学习排序问题的设置。假设现在有一个新闻网站,它需要将六篇新闻文章归入政治类。如果没有任何关于新闻文章的事先信息,我们可能会向第一个用户提供随机排名。根据从第一个用户获得的点击,我们可以将新闻的排名更新,然后使用接下来从用户获得的点击数,继续更新排名,等等。到最后,我们能找到一个对大多数用户或普通用户有用的排名。现在,由于使用点击数作为相关性的估计值,我们可能已经看到这种方法存在一些问题。第一个问题是位置选择偏差,计算点击次数的方法会导致相关性的偏差估计。也就是说,每篇新闻文章的平均点击次数并不等于喜欢这篇新闻文章的用户的个数。这是因为位置越低,注意力越少,点击次数也就越少。这是一个“富者越富”的动态:从最底层开始的有一点机会上升到排名的顶部,比如上图中的新闻4,而从顶部开始的则有更高的机会保持在顶部。现在,即使我们能够以某种方式计算出新闻文章的真实相关性,我们也可能面临第二个问题:曝光分配不公。假设这六篇新闻文章属于G-left和G-right两组。用户分布包括49%的左偏向性用户和51%的右偏向性用户,也就是说49%的用户喜欢G-left文章,而51%的用户喜欢G-right文章。根据概率排序原则,如果我们根据文章的关联概率对这些文章进行排序:那么排序将使几乎所有衡量其效用的指标最大化: 在这个例子中得到的排名将是右偏向性文章排在所有左偏向性文章之前。尽管两组的平均相关性仅有2%的差异,但这种赢者通吃的分配是概率排序原则固有的。而且这不仅不公平,还会产生不良的下游效应,比如两极分化,在这个例子中的表现就是左偏向性用户会被赶出平台。基于位置的曝光模型我们来看看马太效应的形成机制。我们假设一个基于位置的曝光模型,即文档的曝光是检查特定位置的用户的一部分。曝光度e_j是用户在位置j观察到项目的概率:,并用眼球跟踪、干预研究 、干预收获来评估曝光。 因此,我们从曝光的角度考虑了两种不公平。我们希望根据组的相关度来分配曝光,这时曝光是平均相关度价值的函数: 从约束的角度来看,人们可能希望分配与每个组的相关度成比例的曝光:因此,我们将两组之间的平均差距定义为曝光率和相关度之间的差异: 与曝光的差异类似,“影响力”也要确保公平分配。在排名中,“影响力”可以定义为每个文档的预期点击率:而在位置偏差模型下,影响力等于曝光量,即检验概率乘以文件的相关性: 对于约束,需要分配与群体的平均相关度成比例的影响力: 相似地,一对组间差异的平均影响力可以定义为平均值:现在回到最初的例子,我们看到平均相关性2%的差异会导致某个曝光分布的平均曝光量有很大的差异。现在,这个例子既不满足曝光的公平性,也不满足我们前面定义的影响力公平性。2Fairco算法为了缓解马太效应,我们必须要有一个动态的学习排名过程:我们希望顺序呈现动态的排名,最大化预期用户效益,同时确保不公平性归零,使排名收敛。为此,该研究提出了一种Learning-to-Rank算法Fairco,也就是公平控制器:Fairness Controller。Fairco基本上是根据修改后的相关度得分来寻找文档,该分数是加上一个误差项 当我们给定文档的条件相关度估计值时,我们将乘以另一项,时刻处的误差项为:也就是减去文档d组与在曝光或影响力方面具有最大优势的组之间的最大差距。此时这个误差项对于已经拥有最大优势的组来说将是零,而它就会提高其他组的排名这种排名将采取比例控制器或P控制器的形式保护它们,这是一个线性反馈控制系统,其中校正与误差成比例。同样对于Fairco,我们可以提供一个保证:如果问题是适定的,即在公平排名成功的条件下,随着趋于无穷大,平均差距将趋于零。这是以一个字节的速率发生的,现在使用Fairco来动态学习排名设置,需要三件事。第一是位置偏差的估计,前文已经讨论过了,另外两个是无偏条件相关性的估计 和平均相关性的估计 ,估计平均相关性的关键是在Fairco算法中定义误差项时需要平均相关性。或许,它们也可以用来为热门新闻和最受欢迎的项目排序。然而,在这个示例中展示的基于平均点击次数进行排名的方法并不是对每个文档的平均元素的一致估计。相比之下,我们可以通过衡量每次点击的反比倾向来计算无偏相关性:其中 表示在t时刻d上的点击,表示d位置的位置偏差。可以证明这个估计量是一个文档的无偏估计量,在这里无偏意味着IPS估计量收敛到每个文档的真实关联概率值:3评估&实验1、估计无偏平均相关性现在,为了用相关的IPS估计器来评估Fairco,该研究使用了一个自己的示例模拟。首先,从广告中抽取新闻文章作为测试媒体偏差数据集的样本,该数据集用两极化得分标记每个新来源。然后模拟访问这个网站的用户,这样每个用户都有一个相关的两极化得分和一个开放性参数。一个用户新闻文章的真实相关度是新闻文章的两极化以及用户开放性的函数,其真实相关度分布服从伯努利分布:我们的算法目标是将排名呈现给一系列进入的用户,以使他们的效用最大化,同时公平地接触所有的新闻文章。Fairco会让“富人破产”吗?在第一个实验中对一些右偏向性用户进行模拟,右偏向性用户可以通过在G-right文章中引入点击来偏向排名。可以看到公平控制器Fairco能从最初的偏差中恢复过来,同时仍在学习相关度。别的排名算法很难打破最初少数用户造成的偏差,而Fairco能够将这种偏差减少到零,并将不公平性保持在较低水平,即使某些“富人”在一开始就有大量的领先优势。这就意味着最开始的“富人”是有破产的风险的,但是某些“富人”也可能会继续受用户“偏爱”而富下去。Fairco是如何保护少数群体的偏好的?可以看到,如果我们改变左偏向性用户在用户群体中的比例,Fairco可以始终将不公平性保持在接近零的水平,同时在其中一个群体占多数的情况下以公平换取效用,如右图所示。2、估计无偏的条件相关性到目前为止,我们只考虑了公共排名,比如豆瓣影评高分榜。但是现在我们想要个性化的排名,比如个性化的电影推荐。我们仍然想确保它们的相关度分摊到所有用户,因此为了在Fairco里使用它们的情况下进行个性化排名,我们还需要定义如何估计条件相关性,这需要具体给出一些查询和文档特征。神经网络派上用场我们要学习一个评估器,它是通过训练一个神经网络来进行学习的,通过最小化以下损失函数:损失函数使用点击和位置倾向来形成一个平方损失的无偏估计量。这里的损失是无偏的,这意味着在期望中,误差的值等于完全信息平方损失。当观察到真正的相关度是代替位置偏差点击时,现在我们使用这个评估器来估计公平排名中的条件相关性,并对其进行保护,并评估结果,以在真实世界的数据集上测试Fairco算法的有效性。3、Fairco算法在电影数据集上实验该研究从ML-20M数据集中选择前五大制片公司的100部电影,以此作为电影镜头数据集的一个子集。然后在这些电影中选择10K个最活跃的用户。之后计算这些用户和电影之间的评分矩阵,并使用这个矩阵分解得到的用户特征作为模型的输入。这里的目标是向每一个用户展示排名,最大限度地提高DCG指标,同时确保制片公司获得与他们电影平均元素相对应的曝光份额。在这个实验中,本文展示了Fairco算法在公平性方面的有效性,与只根据无偏相关估计进行排名的D-ULTR方法相比,本文还比较了朴素估计,并证明了在测试集上不公平性归零,如下面两图的红线、绿线所示。4结论1、论文确定了在动态学习排序中,有偏反馈是如何导致不公平和次优排序的。2、论文提出了一种自适应的公平协同算法,在相关度仍在学习的情况下,强制执行相关度公平约束。另外Fairco算法易于实现,并且在运行时非常有效。3、论文提出的算法打破了动态排名中“富者更富”的现象。参考链接:https://sigir-schele.baai.ac.cn/poster/fp0069更多交流

野兰花

「论文推荐」左建平教授谈岩层移动研究进展及重点

【能源人都在看,点击右上角加'关注'】钱鸣高院士推荐我国是采煤大国,开采环境多样。采矿是从自然界获取资源,因此采矿必然影响自然环境(地表沉陷,岩层裂隙场形成导致地下水流失等)。采矿引起的岩层运动对地下工程的稳定性更有直接影响,因此研究采矿就应研究开采引起的岩层运动。我国学者在这方面进行了不少努力,也初步总结出相关的规律。有些研究成果已经处于国际领先水平。本文对岩层移动理论作出了初步的总结和研究。由于我国地质条件复杂多样,开采对环境的影响中所形成的地表沉陷现象有很大差别(平缓式下沉:其中又有高和低潜水位对环境的影响;开裂式和断崖式等),原来对平缓式下沉的估计是用统计数学的办法,而它实质上是力学问题,是关键层破断成巨形块体的非连续运动经过软弱岩散体和沉积岩的平整形成了平缓式下沉。而开裂式沉陷则与黄土层有关,断崖式沉陷显然与关键层的破断失去稳定性有关,因此更是与岩层运动的力学性质有关。为此工作还应该不断深入下去,今后还应继续研究岩层运动规律,为采矿的安全和与自然环境协调发展作出贡献,将来在我国必然会形成完整的学派。01随着社会对开采沉陷与生态环境问题日益重视,“科学采矿”势在必行。煤炭开采引起上覆岩层破断移动,并伴随着一系列的特殊力学现象,影响生产安全和生态环境,探索岩层破断移动规律是科学采矿的基础。据不完全统计,1996—2016年国际采矿期刊《International Journal of Rock Mechanics and Mining Sciences》发表的开采沉陷方面论文约148篇;2004—2013年,我国国家自然科学基金委员会共资助开采沉陷类研究项目52项,资助额度2906万元。对开采沉陷问题的研究始于19世纪20—30年代,历经约一个世纪的发展,逐渐形成了一门独立的学科分支——开采沉陷学。直至20世纪60—80年代,我国在岩层移动和地表沉陷方面才有初步进展。02钱鸣高院士等提出了“砌体梁”结构模型,为我国矿山压力与岩层控制的研究奠定了基础。经过多年的研究,我国学者在上覆岩层活动规律与采场岩层控制理论研究方向初步形成了自己的体系。但形成完整的“采场岩层控制理论”仍然存在很多研究工作有待完善和发展。如开采岩层移动的力学机理解释存在不足,对岩层内部的移动规律解释不细微。因此,“需要把力学方法与几何学方法结合起来,全面描述开采沉陷的形态和过程。20世纪90年代,当时的矿压理论不能对一些关键的矿山压力显现、岩层移动及覆岩离层现象作出统一的相互关联的解释。针对此,钱鸣高院士认为在上覆岩层中存在一些较为坚硬的厚岩层,其对岩体活动全部或局部起决定作用,前者称为主关键层,后者成为亚关键层。关键层理论采用力学方法求解采动后岩体内部的应力场和裂隙场改变,使采场矿压、岩层移动和地表沉陷等方面的研究有机地统一成一个整体,为岩层移动和采场矿压研究提供了一种统一思想和方法。关键层理论为其后提出的煤矿“绿色开采”和“科学采矿”奠定了理论基础,因而随后被学术界和工程界普遍接受和广泛应用。03中国矿业大学(北京)左建平教授团队在近期发表的《岩层移动理论与力学模型及其展望》一文中,通过对前人的研究成果进行分析发现,目前岩层移动规律的研究主要侧重在2方面,一方面是采场岩层控制主要采用力学方法研究近场基本顶的破断和移动规律,另一方面是地测工程主要采用数学方法研究地表的沉降规律。左建平等将岩层破断移动和地表沉陷建立起联系,提出了厚松散层覆岩整体移动的“类双曲线”模型,即认为主关键层是覆岩中破坏损伤最少的岩层。覆岩“类双曲线”移动MDDA模拟结果面对“精准开采”和“科学采矿”的新形势,左建平等认为未来可从以下6个方面重点开展研究。岩层移动重点研究方向(1) 采用力学方法揭示岩层内部的破断移动规律,精准描述开采沉陷的形态和过程。岩层移动的本质是煤炭开采使得原岩应力破坏,覆岩应力重新分布,导致顶板岩层发生破断移动。(2) 建立合理的覆岩整体移动力学模型,精确预测地表沉陷范围。“三下”开采对沉陷预计精度要求越来越高,并且有些煤田地下埋设很多管线管道。故应探索“采场矿压-覆岩内部移动-地表沉陷”的统一模型。(3) 岩层破坏移动的时间效应研究。岩层移动随时间变化,最终达到新平衡,这与岩体的流变特性密切相关,故需研究采动岩体流变本构。(4) 地应力的快速精确测量技术。地应力的大小和方向对岩层的破断运动具有直接影响,传统地应力测量手段破坏了原岩应力,测量结果误差较大,故需研发地应力快速精确测量技术。(5) 建立合理的深部岩体非线性大变形本构关系。随开采深度增大,岩体呈现出非线性大变形趋势,应找到适应于深部岩体的本构关系,精确分析深部岩层的破断移动规律。(6) 建立精准的数值模型。岩体破断移动受岩体节理和层面滑移影响,应开发非连续变形分析模拟软件,考虑岩体内部的结构弱面、地质构造等,更真实地反映岩层非连续破断运动过程。来源:左建平,孙运江,文金浩,等.岩层移动理论与力学模型及其展望[J]煤炭科学技术,2018,46(1):1-11,87.征稿邮箱:718710799@qq.com信息提供:朱恩光编辑整理:刘旸审核:毕永华免责声明:图片来自原帖转载或网络,版权归作者所有,如有侵权,请联系删除。免责声明:以上内容转载自煤传媒,所发内容不代表本平台立场。全国能源信息平台联系电话:010-65367702,邮箱:hz@people-energy.com.cn,地址:北京市朝阳区金台西路2号人民日报社