Sruvey 논문
감정분석이 아니라 감성분석인걸 감안하자.
1. Introduction
이래저래 말이 많지만 결국에 핵심은 Text Model에서 Positive라고 분석했지만 실제론 Negative인 경우(과장법이나, 비꼬는 경우)가 많기 때문에 이를 명확하게 구별하기 위해 멀티모달을 활용한 다양한 방법론에 대한 장단점을 소개하는 paper이다.
주로 Text, Audio, Video 등의 모달리티를 다루며, multimodal의 framework로써 [ intra-modality dynamics, inter-modality dynamics ] 2가지로 구분 될 수 있다.
- Intra-modality dynamics
- 각각의 모달 안에서 dynamical한 분석을 하는 것이라는데
- ex) interrelationship between words and phrases in a sentence
- Inter-modality dynamics
- 일반적으로 아는 멀티 모달의 관계
- ex) speaker & screen\
- Inter- modality는 여기서 하나 더 들어간다 (synchronous and asynchronous)
- synchronous
- timestamp와 다른 모달이 동시에 잘 sync가 맞는경우
- asynchronous
- timestamp와 다른 모달이 동시에 잘 sync가 맞지 않는 경우
- synchronous
보통 dataset들은 unaligned하기 때문에(asynchronous) 이를 위한 P2FA tool을 사용해 aligned하게 해줄 수 있다.
일반적으로 intra-modality representation이 더 정확해야 하고, interaction은 modality간에 굉장히 복잡하기 때문에
Challenge: inter-modality interaction에서 best fusion방식을 찾아내 intra-modality representation을 얻을 수 있는지가 된다.
이 논문은 attention mechnism을 사용하는 Dataset으로 CMU-MOSI, CMU-MOSEI를 사용하는 기술들에 대해 조사하며 총 8개의 category를 기반으로 35개의 모델의 장단점을 간략하게 소개한다.
이 논문은 다음과 같은 3가지에 초점을 맞춘다.
- Provide an overview of existing work which will help researchers gain a detailed understanding of available methods and resources for multimodal sentiment analysis.
- Classify existing model frameworks from the perspective of fusion methods and give detailed descriptions of each method.
- Summarize the application fields, expound on the existing challenges and identify future research directions.
2. Popular datasets in multimodal sentiment analysis
multimodal sentiment analysis field에서 현재 인기있는 dataset
Specifically,
[−1,+1] corresponds to [−1: negative, 0: neutral, +1: positive].
[−2,+2] corresponds to [−2: strongly negative, -1: weakly negative, 0: neutral, +1: weakly positive, +2: strongly positive]
나중에 정리하자
2.1 Youtube Dataset
trimodal sentiment analysis task
- visual, textual, acoustic
2.3 ICT-MMMO Dataset
real review of movie videos by non-professional users
- speaks English (len: 1~3 min)
label sentiment: [ strongly negative, weakly negative, neutral, weakly positive, strongly positive ]
3. Feature Extraction
Unimodal feature extraction은 multimodal Sentiment analysis에서 기본이라 볼 수 있고 이에 해당하는 기술들을 정리한다.
3.1 Textual feature extraction
3.2 Visual feature extraction
3.3 Acoustic feature extraction
4. Fusion Methods
논문의 핵심이자 fusion하는 방법들에 대해 간략하게 소개하는 chapter이다. 간단하게 기술들에 대한 대표적인 활용법(?) 정도만 알아보고 자세한건 논문에서 확인하자.
4.1 Early-Fusion (== feature level fusion)
각각의 modalities에서 feature를 뽑고 input level에서 merge
⇒ joint representation 을 먼저 구성하고 이에 기반해서 sentiment classification을 수행함
→ 뒤의 late fusion이랑 비교해보면 결국에 feature들을 합친 후에 합쳐진 상태에서 sentiment analysis를 하냐 안하냐의 차이
4.2 Late Fusion
각각의 모달에서 sentiment analysis를 conduct
Unimodal sentiment analysis 결과를 통합하는 다양한 방법들을 제안 (averaging, weighted sum, majority voting)
장점: 1. View-specific dynamic modeling에서 종종 strong 함
( View-specific dynamic: 하나의 모달에 좀 더 집중해서 나온 결과
cross-view dynamic: 합치는 과정에 좀 더 집중해서 나온 결과 )
- 단순하게 modal들의 결과를 integrate하는 것이기 때문에, model이 가볍고 유연하며, modal 개수에 제한 없이 적용이 가능함
단점: inter-modal interaction이 효율적으로 modeling되지 않음
단순히 각각의 modalities에서 built된 seperate model이기 때문, modal 간의 dynamics는 훨씬 복잡한데 그냥 퉁친 느낌..
4.3 Tensor-based Fusion
MultiModal setence representation을 얻기 위해 Uni-Modal의 setence representation의 tensor product를 계산
- input representation → [ convert ] → high dimensional Tensor
- mapping it back to low-dimensional output vector space
⇒ non-concatenated feature fusion method
장점: 굉장히 powerful함
→ time, feature dimension, multiple modalities에 대한 high-order interaction을 capture할 수 있음
단점:
- drawback 과정에서 굉장히 큰 resource를 소모
- cross-modalities간의 fine-grained world-level interaction이 아님
( fine-grained: 큰 단위의 작업을 작게 나눠서 수행하는 것 → 여러 함수화해서 하는게 아니라 통째로 수행한다고 생각하면 될 듯 → 이게 resource를 많이 잡아먹는 이유이기도 할 듯)
→ 그냥 Early-fusion 방식처럼 text, vision, audio에서 각각 embedding하고 MM representation으로 fuse
4.4 Word-level fusion
view-specific & cross-view interaction을 모두 챙기려 함
각 time step에 대한 interaction modeling을 통해 time dependent interaction을 효율적으로 취하려 함
두 가지 모듈을 기반으로 구성됨
- temporal modeling module
- LSTM, LSTMH, 1D temporal CNN …
- attention module
4.5 Translation-based Fusion
translation을 개발해서 modal간의 interaction에 대해 모델링하는 방법론 (seq2seq에서 영향받음)
- across 모달에 의미 있는 관계를 capture하는 방법으로 하나의 모달을 다른 것으로 convert하는 방법
- transformer encoder의 구조를 adjust(조정)하면서 word interaction을 capture하기 위해 pre-trained language model을 사용
4.6 Feature space manipulation-based fusion
mapping features into feature space after feature extraction and learning the relationship beween features through a series of mathemetical analyses
(feature space = $R^n$ , feature 차원)
4.6.1 ICCN (Interction Canonical Correlation Network)
- to find the linear subspace with the largest correlation between two inputs
- on its basis, uses a pair of neural networks to learn nonlinear transformation
- extracting audio & video through 1D convolution and LSTM
- outer product operation is performed with the text embedding
4.6.3 HyCON
- 기존 cross-modal information을 다루는 연구에서는 주로 모달간의 interaction에 초점을 맞추고, inter-sample, inter-class relationship의 learning은 무시하곤 했다.
- 이러한 문제를 해결하고자 trimodal representation을 다루며 hybrid contrast 방법으로 학습하고자 한다.
- 우선 각각의 모달에서 obtatining representation을 하고 inter-modality interaction과 inter-class relationship을 배우기 위해 3가지 다른 contrastive learning model을 사용한다.
위의 Early-Fusion이나 Late-Fusion과의 중간쯤?? 각각의 모달에서 specific한 feature를 extract한 다음 Elementwise product와 같은 방식으로 feature를 섞어주는 것
( Early Fusion은 그냥 쌩짜로 column을 늘려준거고, Late-Fusion은 아예 각각의 모달에서 결과를 기반으로 mathemetical 계산을 해준거고.. )
4.7 Contextual-based fusion
이전의 방법들은 각각의 utterance를 독립적인 entity로 취급해서 video 내 utterance의 dependency를 무시함
Contextual-based fusion 방식은 context와 target utterance내의 서로 다른 utterances간의 관계를 고려해서 더 좋은 성능을 냄
4.8 Quantum-based fusion
기존 방식이 Neural Network를 기반으로 large-scale data의 intercation을 catpure하는 방식이었다면, Quantum-based fusion은 black box를 통해 전혀 알지 못하는 방식으로 학습함.
pricacy, security issue가 있을 때 사용하기도 함.
5. Application of multimodal sentiment analysis
참고:
https://www.sciencedirect.com/science/article/pii/S156625352300074X