大数据 > 7papers&radios | deepmind等。 用AI老鼠探索神经网络; Berke

7papers&radios | deepmind等。 用AI老鼠探索神经网络; Berke

2020-05-13 10:00阅读(61)

机器的心脏和功能。 ArXiv每周广播电台 :杜威,储航和罗若坦本周的重要论文包括Deepmind,哈佛大学和其他机构创建的3D模拟鼠标来探索神经网络,以及伯克利的数

1

机器的心脏和功能。 ArXiv每周广播电台

:杜威,储航和罗若坦本周的重要论文包括Deepmind,哈佛大学和其他机构创建的3D模拟鼠标来探索神经网络,以及伯克利的数据增强强化学习方法以在多种环境下获得SOTA结果。 本周重要论文Deepmind中的

与哈佛大学和其他机构一起创建了3D模拟鼠标来探索神经网络,伯克利的数据增强强化学习方法实现了在多种环境下的SOTA结果。

目录:

论文1:虚拟啮齿动物的深层神经行为学作者:Josh merel,Diego aldarondo,Bence olveczky等论文链接:https://openreview.net/pdf? Id = syxrxrxr4kps摘要:人工神经网络是目前最先进的人工智能。 它是一种由多层神经元互连组件组成的机器学习算法,“神经元”首先受到大脑结构的启发。 尽管人工神经网络中的神经元肯定无法在真实的人脑中发挥作用,但越来越多的研究人员认为,将两者一起研究不仅可以帮助我们理解神经科学,而且可以帮助构建更智能的AI。

deepmind和哈佛大学的研究人员探索了这个想法。 第一个模拟考试是鼠标3D模型,可以在模拟环境中通过神经网络进行控制。 同时,他们使用神经科学技术来分析小鼠的大脑生物学活性,从而了解神经网络如何控制小鼠的行为。

虚拟鼠标的构造过程。

展开

虚拟小鼠的全文,以执行以下四个任务:跳过间隙,在迷宫中寻找食物,从山上逃脱以及在前爪中准确地击球。

虚拟小鼠的行为分析。

建议:该论文已被ICLR 2020会议接受为焦点论文。

论文2:极端模型压缩的量化噪声训练

作者:Angela Fan,Pierre stock,Armand joulin和其他论文链接:https://arxiv.org/pdf/2004.07320.pdf

摘要:修剪和蒸馏是两种常见的方法 在模型压缩中使用了一些方法,这些方法可以通过减少网络权重的数量来减少参数。 另一种方法是“量化”。 不同之处在于,它通过减少每权重的位数来压缩原始网络。 流行的后处理量化方法(例如标量量化)使训练网络的浮点权重由低精度表示形式(例如固定宽度整数)表示。 这些后处理量化方法的优点是压缩效率非常高,并且可以加速对硬件推理的支持。 但是缺点是,由这些近似值引起的误差会在前向传播的计算过程中累积,从而导致性能显着下降。 现在,来自Facebook的研究人员提出了

的新模型,即量化噪声量化量化技术,该技术可以将模型压缩到极限,同时在实际应用程序部署中保持高性能。 在这项研究中,研究人员提出了一种仅量化权重子集而不是整个网络的压缩方案。 在每个前向传播中,仅对网络的随机部分进行量化,并且大多数权重将通过无偏梯度进行更新。

使用/不使用量化噪声训练的两种情况。 研究人员在训练过程中将量化噪声应用于权重子集,从而提高了量化模型的性能。 在不使用量化噪声训练,使用量化噪声微调和使用量化噪声训练的三种不同设置下,自适应输入体系结构的混乱和Roberta精度的变化。 可以看出,直接使用量化噪声训练可以实现最低的混乱度和最高的准确性。

建议:此方法可以在训练过程中使用更简单的量化方案,这对于具有可训练参数的量化模块(例如乘积量化器(PQ)算法)非常有用。

论文3:长期关注短距离的Lite变压器

作者:张武,刘志坚,宋嵩论文链接:https://arxiv.org/pdf/2004.11886v1.pdf

摘要:尽管发布不到3年前, 变压器已成为自然语言处理(NLP)领域不可或缺的一部分。 然而,这种流行的算法需要非常高的计算能力来实现足够的性能,这对于受计算能力和电池严格限制的移动终端是不够的。 麻省理工学院和上海交通大学的研究人员提出了一种高效的移动NLP架构Lite转换器,这是在边缘设备上部署移动NLP应用程序的一大进步。 这项研究由麻省理工学院电气工程与计算机科学助理教授韩松领导。

lite变压器体系结构(a)和注意权重的可视化,而传统注意(b)过分强调了局部关系建模。

建议:ICLR 2020已收到该论文。

文件4:长尾识别的装饰表示和分类器

作者:康秉义,谢赛宁,Yannis kalandidis等论文链接:https://openreview.net/ pdf? Id = r1grtcvfvb

摘要:根据长尾巴分布的图像识别任务,当前的研究和实践提出了损失重加权,数据集重采样,对尾部少量样本进行过采样等几种解决方案。 ,过多的样本采样或迁移学习。 新加坡国立大学和Facebook AI的研究人员提出了一种新颖的解决方案:在学习分类任务的过程中,他们通常将分类特征表示(通常默认是从分类器中联合学习)解耦,并寻求适当的表示以最大程度地减少分类器的负面影响。 长尾样本分类。

本研究系统地探讨了不同样本均衡策略对长尾数据分类的影响,并进行了详细的实验。 结果表明:a)在学习高质量类别表示时,数据不平衡可能不会成为问题; b)在学习了上述表示之后,即使应用了最简单的样本均衡采样方法,也可能仅通过调整分类器就可以学习非常鲁棒的长尾样本分类模型。 在这项研究中,表示学习和分类器学习分别被分离和扩展。

这项研究在多个开放的长尾巴分类数据集上修改了头类别和尾类别的决策边界,并使用不同的采样策略进行了交叉训练实验。 以上是不同分类器之间的比较结果。

到位LT,Imagenet LT和inanaturalist2018这三个开放标准数据集,该研究提出的策略也实现了比去年同期更高的分类准确性,并取得了新的SOTA结果。

建议:分别通过表示学习和分类器学习找到合适的表示,以最大程度地减少长尾样本分类的负面影响,这为长尾分类提供了新思路。 该论文已被ICLR 2020接收。

论文5:贝叶斯深度学习和概率概化

作者:Andrew Gordon Wilson,Pavel izmailov论文链接:https://arxiv.org/pdf/2002.08791.pdf

摘要 :贝叶斯方法的主要区别特征是边缘化,而不是使用单个设置权重。 特别地,贝叶斯边缘化可以提高现代深度神经网络的准确性和校准。 本文中,来自纽约大学的两名研究人员表示,深度整合可以为近似贝叶斯边缘化提供有效的机制,他们提出的方法通过在成本较低的情况下在吸引盆地中边缘化来进一步改善预测分布。 此外,研究人员还研究了模糊分布对神经网络权重所隐含的先验功能,并从概率的角度解释了此类模型的泛化性能。 从这一观点出发,研究人员解释了神经网络泛化的神秘而独特的结果,例如使用随机标签拟合图像的能力,并表明这些结果可以通过高斯过程再现。 此外,他们还表明,贝叶斯模型通常可以减少两次下降,从而可以提高单调性能和灵活性。 最后,从贝叶斯的角度解释了PDC的回火问题。 从

概率的角度概括。

类似于真实预测分布。

的贝叶斯模型可以减轻平均的双下降。

建议:本文的第一版于2020年2月提交,这是第二版的修订版。 该论文已被ICML 2020接收。

论文6:makeittalk:说话者感知的讲话头动画

作者:Yang Yang,Dingzeyu Li,Jose Echevarria和其他论文链接:https://arxiv.org/pdf/2004.12992v1.pdf

摘要:今天我们开始研究adobe,提出了一种名为makeittalk的新模型,该模型不仅可以使真实的人头说话,而且可以使卡通,油画,素描和人像在白天动态变化。 这项研究提出了一种新方法,该方法可以基于单个面部图像和语音生成令人惊叹的语音状态头部动画。 先前的方法通常学习音频和原始像素之间的直接映射以创建扬声器的脸部,并且该方法将输入音频信号的内容与扬声器的信息分开。 音频内容稳定地控制嘴唇和周围脸部区域的运动,而说话者信息确定面部表情和说话者头部运动的细节。

此方法的另一个重要组成部分是预测可以反映说话者动态的面部特征点。 基于中间表示,该方法可以合成说话者面部的全动态逼真的视频。 这种方法还可以将艺术品,草图,2D卡通人物,Riman和Doodle转换成可以说话的动态视频。 本研究中的makeittalk方法的

管道。

预测卡通图像和动画以及真实面孔动画。 Makeittalk不仅可以合成面部表情,还可以合成不同的头部姿势。 将

的效果与当前SOTA方法的效果进行了比较。

建议:通过对该方法的定量和定性评估,结果表明,与以前的SOTA方法相比,该方法可以生成更高质量的语音状态头部动画。

论文7:使用增强数据进行增强学习

作者:Michael Laskin,kimin Lee,Aravind Srinivas和其他论文链接:https://arxiv.org/pdf/2004.14990.pdf

摘要:本文来自于美国大学的研究人员 加利福尼亚州伯克利市提议对增强数据(缩写为RAD)使用增强学习,这可以增强任何RL算法

相关问答推荐