본문 바로가기

Computer Vision

Unsupervised Learning of Dense Visual Representations (NIPS 2020)

반응형

Abstract

일반적인 Visual Representation에서의 문제

image level → general, global feature : view-invariant

하지만 많은 vision task 들이 dense representation 을 필요ㅗ로 한다 - 즉, 이 local. pixel wise representation을 generalize 하기 위한 방법이 필요.

VADeR

>> contrastive learning을 활용해 local feature들이 view-invariant하게 constant 하도록 forcing 한다.

어떻게 contrastive learning을 활용?

>> different view 지만 같은 location을 표현하는 matching feature 들은 embedding space 상에서 가까워야 하고 그렇지 않은 feature들은 멀어야 한다.

Introduction

기존 contrastive learning : global repreesentation 끼리 similarity 를 비교한다. encoder 막단의 conv feature에 gap를 적용하는 식으로 feature를 얻어내고 이들끼리 비교를 하게 되는데, 이럴 경우 당연히 local 정보가 많이 손실된 low resolution feature들만 남게 된다. 따라서 이런 방식은 dense predictiontask에는 맞지 않다.

Dense representation은 pixel level 정보를 필요로 하고, 여기서 말하는 so called intsinci spatial structure in visual perception을 학습 과정에 이용한다. 이 때 이것들에는 CRF에서 사용되었던 근접한 픽셀들이 비슷한 정보를 가져야 한다던가, boundary는 대체로 graident가 쎄다 던가, 이런 것들이 포함된다. local, dense representation을 보존할 수 있다면 이런 정보들이 결과적으로 학습에 도움이 되는 정보들이 되는 것.

이 논문에서는 이런 perceptual constancy를 neural network에 leverage 하는 것이 key idea이다.

VADeR: View Agnostic Dense Representation 는 이런 일을 contrasting local representations 함으로서 해결한다.

앞서 말한 것처럼, 같은 location의 서로 다른 view를 표현하느 feature들은 matching 되어야 하고, embedding space 상에서 가까워야 한다는 것을 ㅣ용 - 이 때, 어떤 feature가 어떤 다른 feature에게 매칭되는지는, view generation process 상에서 제공되는 것으로 가정하는 듯 하다.

Performance Evaluation

이 learned feature들이 finetuning, feature extractor 와 같은 downstream task에서 얼마나 잘 작동하는지를 보여줌으로써 증명한다. 결과적으로 기존 방법들 심지어 supervised imageNet pretraining 보다 더 효과적이고 좋은 결과를 보여줌.

Comparison to Related Works?

uses pixel level infomration instead of image level

does not require specific data

Method

GOAL: pixel representation to be view agnostic >> maximizing per-pixel similarity between different views of a same scne (contrastive loss 사용)

Figure 2: viewpoint 뿐 아니라 appearance cahnge에도 robust 한 high-level visual concepts

View-Agnostic Dense Representations

"defines a view as a stochstic composition of data transfomations applied to an image

>> 이 때 적용되는 modification은 pixel noise, illumination change 같은 pixel wise noise 일 수도, 아니면 affine transform 이나 homography 같은 geometric transform 일수도 있다.

이 때, 이런 transformation의 결과 얻어낸 view를 (vx, xu)라고 image x의 pixel u에 대해 나타낼 수 있다.

그리고 서로 같은 구조를 공유하거나 의도에 따라 조금 다를 수 있는 두 개의 encoder-decoder 구조를 둔다고 하자. 이 때, f는 target pixel에서 뽑아내는 encoder 이고 g는 comparison 대상에서 뽑아내는 encoder. 두 network를 거친 결과는 embeddint space 상의 latent vector z

contrastive learning은 다음과 같은 contraint를 따르도록 설계되어야 한다.

즉, 다른 픽셀과의 compatibility 보다 transformation을 거친 (view, 혹은 appearnce 가 다른) pixel과의 compatibility 가 높아야 한다.

NCE LOSS를 사용,

N random negative pixels set U-에 대해 다음과 같이 loss를 정의함.

compatibility를 계산하는 function c는 temparature-calibrated cosine similarity 로 정의.

결과적으로 이런 방식을 사용하면, 기존 dense prediction 방식보다 parameter burden 없이 훨씬 효율적으로 learning이 가능함.

fina loss는 emprical risk over very pixel on every image of the dataset

Implementation Details

Sampling View

두 가지 trnasformation을 섞어 사용 ~ following transformation

positive samples: share at least 32 pixels with the target, and uses corresspondence map to find a matching feature while training

Negative samples:

같은 이미지 내 다른 픽셀에서 추출해 사용한 경우결과가 좋지 않았는지 실패했다고 언급.

결국 다른 이미지에서 추출했는데 이 large number of sample들을 handling 하는데 Kaming He가 cvpr 2020에서 제안했던 momentum contrast mechanism. 을 사용하였다.

i.e. g as a momentum-based moving average of f.

Architecture

FPN 을 F와 G에 사용. FINAL FEATURE MAP RESOLUTION IS 128X56X56 (INPUT 3X224X224

MACTHING PAIR 중 32 SET을 RANDOMLY 골라서 LOSS를 적용

반응형