본문 바로가기

전체 글

(3)
Emotion Recognition in Audio and Video Using Deep Neural Networks 논문 리뷰 stanford CS231N에서 진행한 Audio + Video의 멀티모달을 기반으로한 감정 분석이다. Audio를 중점으로 다루기 때문에 오디오 공부에 도움이 많이 되는 논문이다. Audio에서 뽑아낸 feature를 Video와 결합하는 방식에 있어 [ 오디오와 비디오의 매칭이 맞을 경우, 맞지 않을 경우] 에 대한 Contrastive 학습이 주요 기술로 진행한다. 0. Abstract audio spectrogram을 처리하는( CNN + RNN ) + 3DCNN을 통한 multi-modal architecture를 video frame에 일치하게끔 하는 것을 제안한다. 이때 video frame은 IEMOCAP Dataset에 기반하고 accuracy가 약 54.0%의 4개 감정과 71.75%의..
Multimodal sentiment analysis based on fusion methods: A survey 논문리뷰 Sruvey 논문 감정분석이 아니라 감성분석인걸 감안하자. 1. Introduction 이래저래 말이 많지만 결국에 핵심은 Text Model에서 Positive라고 분석했지만 실제론 Negative인 경우(과장법이나, 비꼬는 경우)가 많기 때문에 이를 명확하게 구별하기 위해 멀티모달을 활용한 다양한 방법론에 대한 장단점을 소개하는 paper이다. 주로 Text, Audio, Video 등의 모달리티를 다루며, multimodal의 framework로써 [ intra-modality dynamics, inter-modality dynamics ] 2가지로 구분 될 수 있다. Intra-modality dynamics 각각의 모달 안에서 dynamical한 분석을 하는 것이라는데 ex) interrelat..
Deep Fusion: An Attention Guided FactorizedBilinear Pooling for Audio-video EmotionRecognition 논문 리뷰 인용수 37밖에 안되긴 하지만.. 내가 원하는 분야와 완전히 일치해서 한번 리뷰해보려 한다. Abstract Automatic Emotion Recognition (AER) 분야에서의 주요 challenge는 다음과 같다 너무 많은 감정 표현과 추상적인 개념... -> 그럼에도 일상에서 사람들은 감정을 구분하기 때문에 충분히 연구할 만한 의미가 있는 분야이다. 우리는 사람의 목소리와 표정을 합친 멀티모달에 기반해서 이 분야를 연구할건데, 대부분의 전통적인 멀티모달 (여기선 video, audio)의 fusion 방법은 linear paradigm(feature concatenation ... )에 기반한다. 이 논문에서 주요 특징/기술은 다음 3가지로 설명할 수 있다. Factorized Bilinear..