Vision Language Model (VLM) 입문하기 | Introduction to Vision-Language Modeling

1 · Seoyoung Oh · Oct. 5, 2024, 3 p.m.

“An introduction to vision-language modeling. (Bordes, Florian, et al.)” 을 요약한 글이며, Vision Language Model의 개념과 장점들을 소개합니다. 1 비전-언어 모델(VLMs)은 텍스트와 이미지를 함께 처리할 수 있는 모델로, 최근에는 기존의 대형 언어 모델(LLMs)과 시각적 특징 추출기를 활용하여 훈련 비용을 절감하는 방법이 주목받고 있습니다. VLM은 다양한 훈련 방식으로 발전해 왔으며, 대표적으로 대조적 학습, 마스킹 기법, 생성적 모델들이 있습니다. 최근 모델들은 Pre-trained Backbone ex. CLIP) 을 이용해 훈련 속도와 효율성을 높이며, 빠르게 다양한 작업에 적응할 수 있습니다. Original Paper Review | An introduction to vision-language modeling Abstract Vision-Language Models (VLM...

Read full post on standing-o.github.io