Paper Review

Multimodal Learning With Transformers: A Survey

기업들의 채용공고를 통해, 기업들과 산업이 현재 멀티모달 직무를 요구함을 느끼고 알아봐야 겠다고 생각하여, 서베이 논문을 준비해 보았습니다.

멀티모달에 대해서 전혀 모르고, Attention, Transformer, NLP, BERT등 fundametal 논문들을 제대로 본적 없이 서베이 논문을 들어가게 되어 이해할 수 있을 지 모르겠으나, 일단 읽고, 언급한 fundamental 논문들을 모두 리뷰 한 이후, 다시 멀티모달 논문들을 하나하나 리뷰하며 공부할 생각이다.

본 게시물은 기본적으로 번역한 내용을 요약하는 위주로 리뷰 할 생각이다.

먼저 이 논문은 Transformer를 사용한 Multimodal Learning에 대해 다루며, Transformer 구조의 Multimodality의 특정 설계를 논의한다.

또한 다음과 같은 다양한 모달리티에 대해 적용되는 것을 알아 본다 :

RGB 이미지, 깊이 이미지, 다중 스펙트럼 이미지, 비디오, 오디오/음성/음악, 테이블, 씬 그래프/레이아웃, 포즈 스켈레톤, SQL, 레시피, 프로그래밍 언어, 수화, 포인트 클라우드, 기호적 지식(그래프), 다중 모달 지식 그래프, 스케치 드로잉, 3D 객체/장면, 문서, 프로그래밍 코드 및 Abstract Syntax Tree (AST) - 종류의 그래프, 광학 흐름, 의학적 지식

Abstract

Transformer는 유망한 neural network learner, 다양한 machine learning tasks에서 큰 성공을 거두었다.
최근에 multimodal applications와 빅 데이터의 확산 덕분에, Transformer 기반의 multimodal learning은 인공 지능 연구에서 주요 주제가 되었다.
본 논문은 multimodal data에 중점을 둔 Transformer 기술에 대한 포괄적인 조사를 제시합니다.
- (1) multimodal learning, Transformer ecosystem, multimodal Big Data 시대에 대한 배경,
- (2) 기하학적 토폴로지 관점에서 Vanilla Transformer, Vision Transformer, multimodal Transformers에 대한 체계적인 리뷰
- (3) multimodal pretraining 과 특정 multimodal tasks에 대한 multimodal Transformer applications의 리뷰
- (4) multimodal Transformer 모델과 응용 프로그램에서 공유되는 공통적인 도전과 설계의 요약
- (5) 커뮤니티를 위한 열린 문제 및 잠재적인 연구 방향에 대한 논의입니다.

1. Introduction

초기 인공 지능(AI)의 영감은 Human perception(인간 지각)을 모방하는 것: 즉, 보는 것, 듣는 것, 만지는 것, 냄새나는 것과 같은 것
인간에서 감각 지각의 기본 메커니즘: 지각 데이터의 여러 모달리티를 협력적으로 활용하는 능력이 있음 -> 다이나믹하고 제약이 없는 환경에서 세상과 적절하게 상호작용할 수 있음
이때, 각 모달리티는 서로 다른 통계적 특성을 가진 독특한 정보 소스로 기능함
예를 들어 "물에서 놀고 있는 코끼리" 장면을 이미지와 텍스트를 제공할 때, 이미지는 수천개의 픽셀을 통해 시각적으로 나타내며, 텍스트는 이 순산을 이산적인 단어를 사용하여 설명하게 됨.
기본적으로, multimodal AI system은 multimodal information sources를 흡수, 해석, 추론함으로써, 유사한 인간 수준의 지각 능력을 실현할 수 있다.
Multimodal learning (MML)은 multimodal data로부터 정보를 추출하고 관련시킬 수 있는 AI 모델을 구축하는 general approach이다.
Multimodal learning은 여러 모달리티(예: 언어, 시각, 청각)를 입력받아 작업(예: 언어 번역, 이미지 인식, 음성 인식)을 모델링하는 것이라고 보면 되겠다.
Multimodal learning에 있어서 Transformer를 활용하는 이유는 Transformer의 본질적인 이점과 여러 모달리티(예: 언어, 시각, 청각) 및 작업(예: 언어 번역, 이미지 인식, 음성 인식)을 모델링하는 데 있어서의 확장성 때문이다.
Transformer에 대한 입력은 하나 이상의 토큰 시퀀스로 이루어져 있을 수 있으며, 각 시퀀스의 속성(예: modality label, 순차적 순서)은 구조적 수정 없이 사용될 수 있다.
더 나아가, '각 모달에 대한 특수성 및 모달 간 상관 관계를 학습하는 것'은 단순히 self-attention의 입력 패턴을 제어함으로써 간단히 실현될 수 있습니다.
본 논문은 Transformer 기반의 Multimodal machine learning 현황에 대한 첫 종합 리뷰 논문이다.
본 survey의 주요 특징들은 다음과 같다.
- (1) 모달리티에 관계없이 적용가능한 방법(modality-agnostic way)으로 작동할 수 있는 Transformer의 장점을 알아본다.
  - 즉, 다양한 모달리티(및 모달리티의 조합)와 호환된다.
  - 본 논문에서, self-attention은 '입력 시퀀스(단일 및 다중 모달)를 fully-connected graph로 모델링하는' graph style modelling으로 다루는 것을 제시한다.
  - 구체적으로, self-attention은 임의의 모달리티에서 임의의 토큰의 임베딩'을 그래프 노드로 모델링합니다.
- (2) Transformer의 주요 구성 요소를 가능한 한 수학적으로 multimodal context에서 논의한다.
- (3) Transformer 기반으로 한 multimodal에서, cross-modal interactions(예:fusion, alignment)은 본질적으로 self-attention과 그것의 변형으로 처리된다.

Contributions: multimodal learning, Transformer 생태계, 그리고 multimodal Big Data 시대에 대한 조망을 제시한 후, 주요 기여를 다음과 같이 요약합니다.

1) 제 III장에서는 기하학적 토폴로지 관점에서 Vanilla Transformer, Vision Transformer 및 multimodal Transformer를 체계적으로 검토합니다.
2) 두 가지 보완적인 시각, 즉 application 기반 및 challenge에서, Transformer 기반 MML을 위한 분류를 제공합니다. 제 IV장에서는 multimodal Transformer applications에 대한 체계적인 review를 제시하며, 이는 multimodal pretraining 및 특정 multimodal tasks를 중심으로 두 중요한 패러다임을 통해 이루어집니다. 제 V장에서는 다양한 multimodal Transformer models와 applications에서 공유되는 일반적인 challenges와 designs를 요약합니다.

2. Background

A. Multimodal Learning (MML)

AI 내비게이션 로봇은 현실 환경을 지각하기 위해 다중 모달 센서가 필요합니다, 카메라, LiDAR, 레이더, 초음파, GNSS, HD 맵, 오도미터 등이 여기에 해당됩니다.
인간의 행동, 감정, 사건, 행동 및 유머는 본질적으로 multimodal이며, 따라서 다양한 인간 중심 MML 작업이 폭넓게 연구되고 있습니다.
이러한 작업에는 multimodal emotion recognition, representation of multimodal events, understanding multimodal humor, face-body-voice-based video person-clustering 등이 포함됩니다.
현대 생활에서는 전자 상거래/상품 검색, 비전 및 언어 내비게이션 (VLN) 등 상업 서비스, 입술 판독, 수화 번역등 의사 소통, human-computer interaction, healthcare AI, surveillance AI 등 다양한 multimodal 응용이 보입니다.
더불어 Deep Learning 시대에서는 심층 신경망이 MML의 발전을 크게 촉진하고 있으며, Transformers는 경쟁력 높은 아키텍처 패밀리로써 MML에 새로운 도전과 기회를 제공하고 있습니다.
특히, 대형 언어 모델과 그들의 multimodal 파생물의 최근 성공은 Transformers가 multimodal 기반 모델에서의 잠재력을 더욱 명확히 입증하고 있습니다.

B. Transformers: A Brief History and Milestones

Transformers는 유망한 학습자로 등장하고 있습니다. Vanilla Transformer는 self-attention 메커니즘에서 이점을 얻으며, 원래 NLP에 제안된 시퀀스 특정 표현 학습의 중요한 모델로, 다양한 NLP 작업에서 최고 수준의 결과를 달성하였습니다.
Vanilla Transformer의 큰 성공에 이어 다양한 파생 모델들이 제안되었습니다: BERT, BART, GPT, Longformer, Transformer-XL, XLNet 등이 있습니다.
visual domain에 대한 초기 시도에서 일반적인 파이프라인은 "CNN features + standard Transformer encoder"입니다. 연구자들은 BERT style pretraining을 달성하기 위해 원본 이미지를 낮은 해상도로 크기 조정하고 1D 시퀀스로 재구성하는 전처리를 통해 이를 구현했습니다.
Vision Transformer (ViT)는 Transformer의 인코더를 이미지에 적용하여 end-to-end 솔루션을 제공한 중요한 작업입니다. ViT 및 그 변형은 low-level tasks, recognition, detection, segmentation 등 다양한 컴퓨터 비전 작업에 널리 적용되었으며, supervised 및 self-supervised visual learning에도 잘 작동합니다.
더불어 최근에 발표된 일부 작업은 ViT에 대한 추가적인 이론적 이해를 제공하며, 내부 표현의 견고성(internal representation robustness), 잠재 표현 전파의 연속적인 행동(continuous behaviour of its latent representation propagation) 등을 다루고 있습니다.
VideoBERT는 Transformer를 multimodal 작업으로 확장한 최초의 작업
이후 이 논문을 기반으로, ViLBERT, LXMERT, VisualBERT, VL-BERT, UNITER, CBT, Unicoder-VL, B2T2, VLP, 12-in-1, Oscar, Pixel-BERT, ActBERT, ImageBERT, HERO, UniVL 가 발표 되었다.
2021년에는 CLIP 이 제안되었습니다. 이는 multimodal 사전 학습을 활용하여 분류를 검색 작업으로 변환하는 새로운 이정표로, 사전 훈련된 모델이 zero-shot에 대처할 수 있게 합니다. 따라서 CLIP은 대규모 multimodal 사전 학습을 활용하여 제로샷 학습을 가능하게 하는 성공적인 방법론입니다.
최근에는 CLIP pretrained model based zero-shot semantic segmentation,ALIGN, CLIP-TD, ALBEF, and CoCa 등이 발표되었다.

C. Multimodal Big Data

대규모의 multimodal 데이터셋이 제안되었습니다: Conceptual Captions, COCO, VQA, Visual Genome, SBU Captions, Cooking312K, LAIT, e-SNLIVE, ARCH, Adversarial VQA, OTT-QA, MULTIMODALQA (MMQA), VALUE, Fashion IQ, LRS2-BBC, ActivityNet, VisDial 등이 있습니다.
최근에 공개된 multimodal 데이터셋 중에서 나타나는 특징들
- 더 큰 데이터 규모. 최근에 공개된 다양한 데이터셋은 백만 단위 규모: Product1M, Conceptual 12M, RUC-CAS-WenLan (30 M), HowToVQA69M, HowTo100M, ALT200M, LAION-400M
- 더 많은 모달리티. 시각, 텍스트, 오디오와 같은 일반적인 모달리티 외에도 다양한 모달리티가 등장하고 있습니다. Pano-AVQA는 360도 비디오에 대한 최초의 large-scale spatial and audio-visual question answering 데이터셋입니다. MultiBench는 특히 10가지 모달리티를 포함한 데이터셋을 제공합니다.
- 더 많은 시나리오. caption 및 QA 데이터셋 외에도 CIRR (실생활 이미지), Product1M, Bed and Breakfast (BnB) (시각 및 언어 탐색), M3A (금융 데이터셋), X-World (자율 주행) 등을 포함한 더 많은 응용 프로그램 및 시나리오가 연구되고 있습니다.
- 작업이 더 어려워집니다. 단순한 작업을 넘어 더 추상적인 multimodal 작업이 제안되고 있습니다. MultiMET (a multimodal dataset for metaphor understanding), Hateful Memes (hate speech in multimodal memes) 등이 있습니다.
- 교육용 비디오가 점점 더 인기를 얻고 있습니다. 요리 비디오 YouCookII는 일련의 지시사항을 작업을 수행하는 동영상에 정렬하는 것은 강력한 pretraining pretext task의 한 예입니다. Pretext tasks는 모델이 그것들을 해결함으로써 표현을 학습하도록 강제하는 미리 설계된 문제들입니다.

3. TRANSFORMERS

본 섹션에서는 수학적 공식을 사용하여 Vanilla Transformer, Vision Transformer, 그리고 Multimodal Transformers의 주요 기술을 review 합니다. 토큰화된 입력, self-attention, multi-head attention, basic Transformer layers/blocks 등이 포함됩니다.
우리는 Vanilla Transformers가 geometrically topological 관점에서 이해될 수 있다는 점을 강조합니다:
- self-attention 메커니즘 덕분에 어떤 modalities에서든 각 토큰화된 입력이 주어지면 Vanilla self-attention (Transformer)은 이를 topological geometry space에서 fully-connected graph로 모델링할 수 있습니다.
- 다른 딥 네트워크와 비교할 때(예를 들어, CNN은 정렬된 그리드 공간/행렬에서 제한됨), Transformers는 본질적으로 더 일반적이고 유연한 모델링 공간을 갖습니다.
- 이는 Transformers가 Multimodal task에 대한 주목할만한 이점입니다.섹션 III-A, III-B 및 III-C에서는 각각 Vanilla Transformer, Vision Transformer 및 다중 모달 Transformer의 주요 설계를 검토할 것입니다.

A. Vanilla Transformer

Vanilla Transformer는 n encoder-decoder 구조를 가지며, Transformer 기반 연구 분야의 기원입니다. 이는 tokenized input을 받습니다. 인코더와 디코더 모두 여러 Transformer 레이어/블록으로 쌓여 있습니다. 각 블록은 두 개의 sub-layers, 즉 multi-head attention(MHSA) 레이어와 position-wise fully-connected feed-forward network (FFN)를 가집니다. gradient의 back propagation을 돕기 위해, MHSA와 FFN은 e Residual Connection( input x에 대해, 어떤 mapping $f(.)$ 의 residual connection은 $x ← f(x) + x$로 정의됨)을 사용하고, 그 다음에 normalization layer가 옵니다. 따라서 input tensor가 $Z$ 라고 가정할 때, MHSA와 FFN sub-layers의 출력은 다음과 같이 표현될 수 있습니다:

$Z←N(\text{sublayer}(Z)+Z)$

여기서 $\text{sublayer}(.)$는 sub-layer 자체에 의해 구현된 mapping이고, $N(.)$은 정규화를 나타냅니다. 예를 들어, $BN(.)$, $LN(.)$ 등이 있습니다.

논의: post-normalization 대 pre-normalization는 아직 해결되지 않은 중요한 문제입니다. 원래 Vanilla Transformer는 각 MHSA와 FFN sub-layer에 대해 post-normalization를 사용합니다. 그러나 수학적 관점에서 pre-normalization가 더 의미가 있습니다. 이는 행렬 이론의 기본 원칙, 즉 정규화는 투영 전에 수행되어야 한다는 것과 유사합니다(예: Gram–Schmidt 과정). 이 문제는 이론 연구와 실험적 검증을 통해 더 연구되어야 합니다.

B. Vision Transformer

Vision Transformer (ViT)는 이미지 특화 입력 파이프라인을 갖추고 있으며, 입력 이미지를 고정된 크기(예: 16×16, 32×32)의 패치로 분할해야 합니다.
선형적으로 임베딩된 레이어를 거친 후 위치 임베딩을 추가하고, 모든 패치별 시퀀스는 표준 Transformer 인코더로 인코딩됩니다.
이미지 $X \in \mathbb{R}^{H \times W \times C} $ (H 높이, W 너비, C 채널)가 주어지면, ViT는 $X$를 일련의 평탄화된 2D 패치들인 $x_p \in \mathbb{R}^{N \times (P^2 \cdot C)}$ 로 재구성해야 합니다. 여기서 $(P \times P)$ 는 패치 해상도이고 $N=HW / P^{2}$ 입니다.
분류를 수행하기 위한 표준적인 접근법은 sequence of embedded patches에 extra learnable embedding "classification token" [CLASS]를 추가하는 것입니다:

$Z \leftarrow \text{concat}([\text{CLASS}], XW),$

여기서 $W$는 프로젝션을 나타냅니다.

C. Multimodal Transformers

최근, 다양한 multimodal 작업에 대해 광범위하게 연구된 많은 Transformers가 있으며, 이들은 discriminative 작업과 generative 작업 모두에서 다양한 modalities와 호환됨을 보여주었습니다.
Multimodal Input: Transformer 계열은 일반적으로 general graph neural network로 공식화될 수 있는 일반 아키텍처입니다.
구체적으로, self-attention은 각 입력을 a fully-connected graph로 처리할 수 있으며, global (nonlocal) patterns에 주목함으로써 이를 수행합니다.
따라서, 이러한 고유한 특성은 Transformers가 각 토큰의 임베딩을 그래프의 노드로 취급함으로써, 다양한 modalities와 호환되는 모달리티에 구애받지 않는 파이프라인에서 작동할 수 있도록 도와줍니다.Tokenization and Embedding Processing

Tokenization and Embedding Processing: 임의의 modality에서 입력을 받은 사용자는 데이터를 Transformers에 입력하기 전에 두 가지 주요 단계를 수행하기만 하면 됩니다.
- (1) 입력을 토큰화하고, (2) 토큰을 나타낼 임베딩 공간을 선택합니다.
- 실제로, 입력을 토큰화하고 토큰에 대한 임베딩을 선택하는 것은 Transformers에 있어 필수적이지만 매우 유연하며, 많은 대안이 있습니다.
- 예를 들어, 이미지가 주어진 경우, 토큰화 및 임베딩의 해결책은 고유하지 않습니다.
- 사용자는 다중 세분성 수준에서 토큰화를 선택하거나 설계할 수 있습니다 – 대략적인 것과 세밀한 것을 비교합니다.
- 예를 들어, 객체 감지기로 얻은 ROI와 CNN 특징을 토큰 및 토큰 임베딩으로 사용하거나, 패치와 선형 투영을 토큰 및 토큰 임베딩으로 사용하거나, 객체 감지기와 그래프 생성기로 얻은 그래프 노드 및 GNN 특징을 토큰 및 토큰 임베딩으로 사용할 수 있습니다.
- 토큰화 계획이 주어지면, 이후의 임베딩 접근 방식은 다양할 수 있습니다.
- 예를 들어, 비디오 입력의 경우, 비디오 위의 non-overlapping windows(down-sampled)을 토큰으로 취급하는 것이 일반적이며, 그 임베딩은 다양한 3D CNN을 통해 추출될 수 있습니다.
- 예를 들어, VideoBERT, CBT, 그리고 UniVL은 S3D를 사용하고, ActBERT는 ResNet-3D를 사용합니다.

Disccusion:

geometric topology의 관점에서 볼 때, Table I에 나열된 각 modalities는 그래프로 간주될 수 있습니다.
RGB 이미지는 본질적으로 픽셀 공간에서 깔끔한 그리드 그래프입니다.
비디오와 오디오 모두 시간적 및 의미적 패턴을 포함하는 복잡한 공간 위의 클립/세그먼트 기반 그래프입니다.
2D 및 3D 드로잉 스케치는 드로잉 스트로크를 따라 나열된 주요 포인트를 고려할 때 일종의 희소 그래프입니다.
스케치와 유사하게, 인간의 포즈도 일종의 그래프입니다.
3D 포인트 클라우드는 각 좌표가 노드인 그래프입니다.
다른 추상적 modalities도 그래프로 해석될 수 있습니다, 예를 들어, 소스 코드, 소스 코드의 데이터 흐름, 테이블, SQL 데이터베이스 스키마, 텍스트 질문 그래프, 전자 건강 기록(EHRs) 등이 있습니다.

'Paper Review' 카테고리의 다른 글

Deep SVDD (1)	2024.05.17
GOAD: CLASSIFICATION-BASED ANOMALY DETECTION FORGENERAL DATA (0)	2024.05.17
Anomaly detection 분야 구현 및 논문 리뷰 할 것들 (0)	2024.04.11
Improving Diffusion Models for Authentic Virtual Try-on in the Wild 논문 리뷰 (0)	2024.04.05
Multimodal Learning with Transformers: A survey 논문 리뷰 (0)	2024.04.05

Contents

새소식

인기 검색어