寻找通用表征：CVPR2020上重要的三种解决方案

王自佳

的编辑，网络

的作者，机器心脏分析家Joni zhong

说：“道是道，非道”。但是，AI领域的表示已朝着“普通道就是道”的方向发展，这使得可以表示的事物越来越接近“普通道”。 2017年，在DARPA提出的第三次机器学习概念浪潮[1]中，方向之一是找到更通用的表示形式，以使AI从当前的“定义明确”任务中解放出来，以完成更复杂的任务，并进一步提高人员绩效。为了解决这个问题，有两个主要方向：寻找一种新的表示方法[2]（更有效的计算方法或一种新的表示）或提高当前表示方法的通用性[3，4]。本文讨论了今年CVPR中提出的三种解决方案。首先，它说明了如何改进现有的表示形式，然后如何提高了表示形式的性能，最后，它基于多任务学习，说明了如何处理两个不太相关的任务的表示形式。在本文中，每篇论文的描述将首先描述任务和算法概述（为方便粗略地理解论文），然后讨论算法细节（如果您想了解更多有关它的信息，也可以在后面阅读）部分）。

“可以说是道，非道”。但是，AI领域的表示已朝着“可以说正规道”的方向发展，使可表示事物越来越接近“正规道”。 2017年，在DARPA提出的第三次机器学习概念浪潮[1]中，方向之一是找到更通用的表示形式，以使AI从当前的“定义明确”任务中解放出来，以完成更复杂的任务，并进一步提高人员绩效。为了解决这个问题，有两个主要方向：寻找一种新的表示方法[2]（更有效的计算方法或一种新的表示）或提高当前表示方法的通用性[3，4]。本文讨论了今年CVPR中提出的三种解决方案。首先，它说明了如何改进现有的表示形式，然后如何提高了表示形式的性能，最后，它基于多任务学习，说明了如何处理两个不太相关的任务的表示形式。在本文中，每篇论文的描述将首先描述任务和算法概述（为方便粗略地理解论文），然后讨论算法细节（如果您想了解更多有关它的信息，也可以在后面阅读）部分）。

1。用于人体姿势估计的分布感知坐标表示

论文链接：https://arxiv.org/abs/1910.06278

1.1任务描述

全文扩展

本文的主要目的是检测空间位置（坐标）任何图像中的人体关节。由于每张图片的光线，背景和穿着情况都不相同，因此此任务的困难在于图片中这些关节的显示方式发生了很大变化，因此，良好的标记（身体关节的坐标）表示尤为重要。目前，标签表示的标准方法是使用热图，即以每个关节的标签坐标为核心而生成的二维高斯分布/核[5]。该方法的核心在于坐标编码（即从坐标到热图的过程）和解码（从热图到坐标的过程）的过程，当前的SOTA方法也基于热图[6， 7]。因此，本文的主要目的是改进热图的编码和解码方法，并通过实验证明良好表示的重要性。

1.2算法概述

整个任务的最终目标是预测给定输入图像的关节坐标。因此，我们需要学习从输入图像到输出坐标的回归模型。此过程可以分为两个步骤。首先，假设有一组训练图像，并且模型的学习分为两个步骤。第一步是将节点的地面真实坐标编码为热图，作为有监督的学习目标。第二步是解码：在测试期间，将预测的热图解码为原始图像坐标空间中的坐标。在编码过程中，为了减少计算量，降低了图像像素的分辨率，因此有必要对结果进行偏移以获得良好的结果。过去，大多数基本方法都是基于经验的。本文对迁移进行了详细说明，并给出了一种更好的迁移方法。同样，在编码时，我们还需要对其进行转换，以避免分辨率衰减的影响。

1.3算法细节

1.3.1解码过程

标准解码方法是根据经验确定的，初步坐标P可以根据以下公式计算：

其中m是热图中的最大激活值， s是热图中的第二大激活值，

| 2是向量的模块长度。换句话说，实际坐标应在热图空间中从第一有效值移动到第二有效值。产生偏移的原因是，在编码过程中，为了减少计算量，图像像素的分辨率降低了，因此最终有效图像中第一个有效值的位置与关节在图像中的真实位置，但仅是一个粗略的假设。假设初始衰减率为λ，且分辨率恢复后的最终坐标为：

，则本文提出的解码方法利用热图的分布结构来找到实际的最大激活值。基本过程如下图所示。

（来自原始论文）图1：解码过程结构图

，其中分辨率恢复与标准方法一致（如上式所示）。

distribution感知最大重定位是基于分布假设重定位最大激活值。具体而言，作者假设热图符合2D高斯分布，因此热图可以表示为：

其中x是热图中像素的位置，Mu是高斯的中心，并且该中心与最重要的预测关节位置（原始图像中的位置）有关。协方差Sigma是一个对角矩阵，与坐标编码中使用的对角矩阵相同（sigma是标准偏差）：

基于对数罩优化原理，作者将在保持对数不变的前提下，通过对数转换g 最大激活值的原始位置：

整个任务的最终目标是估计亩。由于这一点的特殊性，其一阶导数“ D”也具有其自身的特征：

利用这一性质，作者使用泰勒理论通过使用泰勒级数来逼近活化值p（MU）。最大激活值m：

这里的二阶导数是通过

符合以上三个公式计算得出的，最终得到：

分布调制，然后验证是否在分布感知最大重定位中假设高斯分布的假设验证如图2所示。一般而言，训练集中的热图将具有良好的高斯特性，而预测的热图（图2（a））通常将具有多个峰，这不符合

（来自原始论文）图2：解释分布式调制过程

，因此，作者使用高斯核K 使用与训练数据相同的分散度来调制（卷积）预测的热图h，以减少多个峰的影响：同时确保

，以确保调制前后值的一致性，也改变了比例尺：

1.3.2为了解决与解码相同的问题，作者首先对gotru-truth（关节坐标）进行了变换以减少分辨率衰减的影响，然后将

重新生成为热图。。具体来说，作者首先衰减地面实况（g =（U，V））以获得g \'：

（λ是衰减率），然后为了便于生成核，作者还对其进行量化（向下舍入，向上舍入，舍入等）以得到g \“：

。最后，以该坐标（g \'\'）为中心的热图可以生成：

，但是如图3所示，量化将在很大程度上引入误差。因此，尽管作者仍使用上述公式，但他并未使用G \“，而是使用g \'来减少误差。

（来自原始论文）图3：G \'（蓝点）向下舍入后引入的误差（红色箭头）

.4实验结果

数据集：Coco和mpii

评估方法：对象关键点相似度（OKs）用于可可，在mpii上使用正确关键点（PCK）

模型的百分比：使用Adam优化器，hrnet和基线模型使用与原始纸张相同的参数，沙漏的学习率调整为2.5e-4，第90个纪元的2.5e-5，第120个纪元的2.6e-6

结果：以下三个表表明，本文提出的编码和解码方法具有实际效果。下面的两个表显示，Dark可以与大多数现有模型无缝连接，并且性能也比当前的SOTA方法好得多。

1.5总结

本文说明了良好表示模型的重要性，并且还表明当我们对模型的每个步骤都有更深入的了解时，即从经验到科学的过程，通常会带来更好的性能。

2。奖励用于深层面部识别的通用表示学习

论文链接：https://arxiv.org/abs/2002.11841

2.1任务描述

将图像映射到面部识别任务中的特征空间。人们希望此空间中不同对象之间的距离可以尽可能大，而相同对象之间的距离可以尽可能小。但是人脸图像发生了很大变化。尽管一些大型数据集已尽可能保证了图像库的多样性，但仍然不够。 SOTA模型无法在某些特别具有挑战性的数据集上获得良好的结果。为了解决这个问题，也有一些方法，但是这些方法要么只处理特定的更改，要么需要访问测试数据的分发，或者通过增加运行时的复杂性来处理更广泛的更改。如图4所示，本文的作者学习了没有上述问题的统一特征表示，并获得了良好的效果。

（来自原始论文）图4：作者的方法避免了在获得统一特征时遇到的几个常见问题。

2.2算法概述

首先，作者指出，态度消极，分辨率低且遮挡严重的输入是“ 应用”提出了关键的可见挑战，可以将培训数据进行整合。但是，直接在训练中添加硬的增强样本会给人们带来更困难的优化问题。作者提出了一个想法

寻找通用表征：CVPR2020上重要的三种解决方案

相关问答推荐

热点关注

大数据

大数据热门

快速找问题

大数据