새소식

Paper Review

Neural Transformation Learning for Deep Anomaly Detection Beyond Images

  • -

https://arxiv.org/pdf/2103.16440

 

Abstract

  • Self-supervised learning에서 Data transformations 은 중요함
  • 다양한 view로 이미지를 변환하여 학습하면, 신경망이 downstream task에 적합한 feature representations을 학습할 수 있음 (ex. Anomaly Detection)
  • 어떤 transformations을 사용할 지 결정하는게 확실하지 않기에, 본 연구에서는 end-to-end로 Anomaly Detection을 위한 learnable transformations 과정을 제시함
  • 각기 다른 transformations끼리는 구별되게 하며, transformed data는 untransformed data를 닮도록 semantic space에 embed하는 아이디어
  • One- vs. -rest / n- vs. -rest 모든 실험에서 좋은 성능

1. Introduction

- 최근 이상 탐지 분야는 Data Augmentation 패러다임에 의존해서 발전해옴. 

- 특히, 이미지 데이터의 경우, self-supervision 상황에서 Rotation, Reflection, Cropping 등 다양한 Transformations가 데이터의 다양한 views를 학습하기 위해서 사용됨.

      ->  이렇게 Transformation을 적용한다면, transformation prediction과 다양한 관점으로 학습되는 representations들로 의해 강력한 Anomaly Detectors를 이끌어낼 수 있음 

 

- 하지만, 이미지 데이터가 아닌, 시계열 또는 Tabular 데이터에서는 어떤 Transformations를 적용해야 좋을지 알려진게 없기 때문에 적용하기 어려운 상황임 

 

본 연구는 images 외에 다른 데이터 타입에 자기지도 이상탐지를 제안한다.

이는 neural transformation learning for anomaly detection (NeuTraL AD)으로 learnable transformations으로 anomaly detection을 하는 end-to-end 방법론이다.

 

Data transformation을 만들기 위해 -> auxiliary prediction task를 수행 (x)

Data transformation을 만들기 위해 ->  효과적인 data transformations anomaly thresholding을 학습할 수 있는 목적함수를 제시한다.

즉, 다른 viwe들끼리는 구별되게 하고, 같은 view라면 'transformed된 샘플'과 'untransformed form 샘플'간의 semantic information을 공유하여 서로 닮아지도록 하는 transformations을 학습한다  

NeuTraL AD는 learnable transformations (neural transformations)  encoder model 두 구성요소로 이루어져있다.

두 구성요소는 deterministic contrastive loss (DCL)에 의해 jointly하게 학습된다. 

해당 loss는 다른 표현학습에서의 contrastive loss와 다르고 image anomaly detection에서의 loss와 다르며 negative samples을 사용하는 모든 loss들과 다르다

 

추가적인 regularization이나 adversarial training이 필요없는 non-stochastic 목적함수를 제시하고, 이는 곧 anomaly score가 된다.

 

Deep Anomaly Detection

관련된 방법론들은 Deep autoencoder, Deep one-class classification, Deep generative models, Outlier exposure 등 다양함

자기지도 Anomaly detection을 Detection Accuracy을 크게 향상시킴

    - 이 방법은 데이터를 augment한 후 어떤 transformations이 적용되었는지 예측하는 방법

    - 학습이 끝난 Classifier는 Anomaly detection에 사용

 

self-supervised anomaly detection에 대한 다른 방법은 같은 이미지로부터 나온 서로다른 두개의 view를 맞추는 contrastive loss로 classifier를 학습하는 방법이다. 이렇게 한다면 strong representations을 얻을 수 있고 이상탐지에 활용할 수 있다. 

 

GOAD 논문의 저자는 image 외에 self-supervised anomaly detection을 다른 도메인으로 어떻게 확장할 수 있는지 연구하였다. 유사하게 transformation prediction을 기반으로 하지만 open-set setting을 고려하였다. 

본 연구에서는 유사하지만 학습 가능한 transformations을 사용하고 더 높은 성능을 얻어낸다.

 

 

Self-Supervised Learning

자기지도 학습은 대부분 auxiliary task를 위한 data augmentation에 의존한다.
Auxiliary tasks (보조작업 e.g. patch prediction, solving jigsaw-puzzles, cross-channel prediction, rotation prediction)으로 학습한 네트워크는 downstream task를 위한 feature extractors로 사용됩니다.

-> 다양한 종류의 보조작업이 있음, 이 보조작업으로 학습한 네트워크는 feature 추출기로 사용됨 

Image에서 주로 발전되어왔지만, 시계열 representations 추출을 위한 temporal order verification과 같은 auxiliary task 방법론도 제안되었음.

 

Contrastive Representation Learning

대부분의 self-supervised method들은 InfoMax 방식을 따르고 있다. 

해당 방법 기반들은 데이터와 문맥 간 혹은 데이터의 각기 다른 views들간 "상호정보량"을 극대화하도록 학습된다. 

이러한 방법들에서 상호정보량을 계산하는 일은 힘들기 때문에, approximation 혹은 bounds 들이 사용되곤 합니다.
본 연구에서도 Contrastive loss를 사용했지만 같은 샘플에서의 두개의 views와 다른 샘플들에서의 views들을 미니배치 안에서 대조하는 방법을 선택하지 않고, 같은 샘플에서의 서로 다른 views로부터 original version을 결정하도록 학습되었습니다.
이렇게 single sample만을 사용하는 방법은 test 시에 anomalies에 score를 부여할 수 있고, data transformation을 학습시킬 수 있다는 장점이 있습니다.

 

Learning Data Augmentation Schemes

Data Augmentation 방법은 예전부터 있었다. 일반적으로는 Hand-crafted data augmentation 방법들이 있다.

본 연구는 Viewmaker networks 논문과 가장 밀접하게 관련되어 있으며 SimCLR 논문의 framework에서 representation learning을 위해 어떻게 views들을 생성하는지에 대해 연구하였다. 이렇게 하면 original sample과 semantic information을 공유하지 않는 trivial solution인 view들을 피하도록 학습할 수 있다.

 

NeuTraL AD 방법론은 deep, self-supervised anomaly detection 분야에 속하며, 이미지를 넘어 이상 감지에 효과적으로 transformations을 사용할 수 있도록 학습하는 것이 주요 핵심이다. 이 방법은 시계열이나 Tabular data 에서도 사용할 수 있으며 특히 시계열에서 상당히 좋은 성능을 보인다.

 

3. Neural Transformation Learning for Deep Anomaly Detection

Proposed Method: NeuTraL AD

NeuTraL AD 방법론은 Learnable transformations와 Encoder 두 개의 파이프라인으로 이루어져있습니다.
둘 모두 deterministic contrastive loss (DCL)에 의해 jointly 학습됩니다.
목적 함수는 두 가지 목적으로 작동하는데,
첫번째로 학습 시에 encoder와 transformation의 parameters를 최적화시키고,
두번째로 추론 시에 각 Sample들이 inlier인지, anomaly인지 스코어링합니다.

 

Learnable Data Transformations

data space $\chi$ 에 대한

  • Data Sample $D = \{x^{i} \sim \chi\}^{N}_{i=1}$
  • K transformations $ \mathcal{T} := \{T_1, .... , T_K | T_k: \chi \rightarrow \chi \} $

이때, Transformations는 학습 가능하다. 

Gradient-based 최적화 방법들로 parameter들을 학습시킬 수 있고, 저자는 feed-forward 신경망을 사용하였다.

 

Deterministic Contrastive Loss (DCL)

본 연구의 가장 핵심 부분이다. 본 논문에서는 새로운 목적함수를 제시한다.

DCL 손실함수는 transformed sampleoriginal sample가깝게 하고 다른 transformed version sample과는 멀어지게 한다. 

이를 위한 Score Function은 다음과 같다. 

 

 

여기서 f 함수가 X → Z 하는 encoder 함수이며 features extractor 이다.

sim function은 consine similarity 이다.

 

DCL 손실함수는 다음과 같다. 

위 식의 분자는 transformed sample을 original sample과 가깝게 한다.

이렇게 함으로써 transformation이 semantic information을 보존하도록 한다. 

 

위 식의 분모는 transformed sample들이 다른 transformed sample들과 멀어지도록 한다. 

 

Anomaly Score

본 연구는 GOAD와 마찬가지로 training loss가 곧 anomaly score가 된다. 

따라서 Anomaly Score 수식은 다음과 같다. 

 

해당 Score는 deterministic하며 새로운 data point에 대해 곧바로 평가되기 때문에 negative sample이 필요가 없다.

 

위 그림처럼 normal과 abnormal이 확실히 구별됨을 볼 수 있다.

습을 진행해서 DCL을 최소화하고 나면 위 그림처럼 정상과 이상의 Score가 뚜렷하게 구분된다.

해당 Score 방식은 상당히 simple하고 추가적인 regularization이나 constraints가 필요없다.

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.