일단 내가 이미 알고 있는 선에서 가장 대표적인 멀티모달은 CLIP이다.
졸업하고 빨리 입사하여 멀티모달 부분을 연구 개발하고 싶었는데 취업이 2년이나 길어졌다. 더 이상 채용과정(코테, 인적성, 면접) 공부 준비만 할 수는 없다.
멀티모달 공부를 하자.
AutoGluon이라는게 있더라, 알아보자. 아래 링크는 데모 실현 영상이다.
https://www.youtube.com/watch?v=9JUK7oRV2RY
MONAI라는 라이브러리도 있더라
https://jedemanfangwohnteinzauberinne.tistory.com/13
CVPR2024에 의료 이미지와 tabular 데이터를 이용한 멀티모달 논문도 있다.
https://github.com/paulhager/MMCL-Tabular-Imaging?tab=readme-ov-file
멀티모달에 대해 아래 논문도 가볍게 읽어보자.
AutoGluon-Multimodal (AutoMM): Supercharging Multimodal AutoML with Foundation Models
https://arxiv.org/pdf/2404.16233